169 похожих чатов

Расскажите, пожалуйста, про normality tests. Я на реддите упомянул про

Шапиро Вилк, а мне один господин надменно заметил, что нормалити вообще не нужно, и никогда не стоит делать. Это было странно тем более, что r\Datascience вообще не токсичная борда.
Он написал, что живые данные не нормальны практически всегда (с чем я не спорю), и надо сразу переходить к проверке гипотезы, минуя проверку на нормальность. Но тут проблема, мы свою гипотезу проверяли именно тестом на нормальность, точнее, уровнем ненормальности данных, и все хорошо работало. Идея была не моя, там профессор придумывал алгоритм, а я только облекал в скрипты и запускал.
Что скажете? А то мне там минусов понаставили ни за что, как я считаю. Обидно.

6 ответов

22 просмотра

Надо смотреть на конкретную задачу. Плюс есть куча алгоритмов, которые хорошо работают только в условиях нормальности данных. Поэтому лучше проверить. Другое дело, что тестов нормальности достаточно много, и, по-хорошему, надо сначала определить, какой из них лучше всего работает в условиях конкретно ваших данных. Но это уже задротство. Так что спокойно работайте, а надменный господин с таким подходом что-нибудь где-нибудь также пропустит, после чего получит очень странный результат.

есть разумное мнение, что если данных мало, то тест всегда покажет, что они нормальные. А если много, то они не нормальные, потому что они всегда не нормальные. Поэтому вместо тестов часто рекомендуют посмотреть прям на колокол или qq-plot. Но зависит от задачи, конечно

Evgeny-Vlasov Автор вопроса
Артем Черемухин
Надо смотреть на конкретную задачу. Плюс есть куча...

Не, ну это было несколько лет назад, и там алгоритмы наверняка несколько раз поменялись, мы тогда лепили первый прототип из спичек и желудей. Да и к вопросу, на который я отвечал, это не имеет отношения. Там обсуждали, что нужно знать дата соентисту для того, чтобы нормально работать, SQL в том числе. Кто-то спросил, что можно сделать на R, чего нельзя с SQL? Ну я и ответил - Шапиро Вилк тест на нормальность - первое, что пришло в голову, просто потому что я с этим работал. Причем, мне сначала наставили плюсов, а потом пришел этот вонючка, и мне наставили минусов.

Evgeny-Vlasov Автор вопроса
Eli (Ilya) Eydlin
есть разумное мнение, что если данных мало, то тес...

Меня смущает, что он настаивал, что нужно сразу переходить сразу к основным алгоритмам, минуя проверку нормальности. А у нас проверка нормальности и была основной алгоритм.

Evgeny Vlasov
Не, ну это было несколько лет назад, и там алгорит...

проверку нормальности точно не нужно пропускать. Вдруг у вас данные с тяжелым хвостом или как-то еще очевидно не нормально распределены (и, следовательно, не подойдут для использования в ряде моделей). Вопрос в том, имеет ли смысл считать формальные критерии нормальности (все эти Колмогоровы и Шапиры)? Как уже было упомянуто, на слишком мелких выборках какая угодно ерунда может оказаться нормально распределенной, а когда данных много - даже незначительное отклонение от нормальности "сломает" тест. Поэтому остаются только графические методы с оценкой "на глазок". В ряде случаев, н-р когда собрано много данных и не все они одинакого важны, можно пойти формальным путем и делать проверку на нормальность перед расчетами. Все равно в б-ве случаев результаты будут очень близки друг к другу независимо от метода. Такой подход может помочь избежать проблем и лишнего общения с регулятором или ревьюером (смотря в какой вы области).

Eli (Ilya) Eydlin
есть разумное мнение, что если данных мало, то тес...

Ничто не мешает брать альфу, отличную от 0.05. Тогда и проблемы, описанной вами, можно избежать

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта