же все здесь коллеги?
Есть запись с лазера, который фиксирует движение (или не-движение) бактерий. Файлы огромные - 700+ мегабайт восьмизначных интегеров на одну запись. Предположение - если краказябры не двигаются, фоновый шум дает больше нормальности, чем если они двигаются. Данные очень шумные, да. Это неплохо совпадало с контролем, более 50%, во всяком случае.
я не очень понимаю задачу, честно говоря может, вам проще какую бинарную штуку типа "двигается / не двигается"? и тогда тут проверка на нормальность не нужна или критерий "не двигается" очень неявный?
Он ппц какой неявный, в этом-то и проблема. Нам и нужно было обнаружить - двигается или нет.
Тестов масса, для некоторых из них есть обязательная презумпция нормальности данных, если данные не нормальные то и тест может неточно считать свои тест статистики типа t-value, chi^2 или F Ну вот и балансируй что лучше: проверять что твой выбранный тест хорошо может сделать «замер» на этих данных основываясь на нормальности или стоит поискать другой тест который может более точно свои тест статистики посчитать на основании данных которые у тебя есть. Это всё блин искусство уже Комментарий чудика с реддита бредовый потому что это все в конечном счёте относительно, как и выбор Альфы и соотношения ошибки типа 1 и типа 2. Сказать что в этом вопросе есть однозначность и есть сама ошибка мне кажется
плюсую, выбор метода и анализ распределения - это всегда творческая часть работы аналитика, нет жестких и однозначных критериев
Можно попробовать обучить нейросетку аутоэнкодер на шуме (где точно нет бактерий или они дохлые), а затем погонять с живыми, в стиле детекции аномалий
Я думал об этом, но я на том проекте был простой кодопис на фрилансе, а мой профессор любит гуд олд статистикс. Сейчас они так и делают, наверняка. Это было несколько лет назад, тогда нейросети были не так на слуху, и удобных инструментов типа тензорфло 2.0 еще не было. Да и главная задача была получить следующий раунд, для чего быстрый грязный хак был то что надо :)
Обсуждают сегодня