Шапиро Вилк, а мне один господин надменно заметил, что нормалити вообще не нужно, и никогда не стоит делать. Это было странно тем более, что r\Datascience вообще не токсичная борда.
Он написал, что живые данные не нормальны практически всегда (с чем я не спорю), и надо сразу переходить к проверке гипотезы, минуя проверку на нормальность. Но тут проблема, мы свою гипотезу проверяли именно тестом на нормальность, точнее, уровнем ненормальности данных, и все хорошо работало. Идея была не моя, там профессор придумывал алгоритм, а я только облекал в скрипты и запускал.
Что скажете? А то мне там минусов понаставили ни за что, как я считаю. Обидно.
Надо смотреть на конкретную задачу. Плюс есть куча алгоритмов, которые хорошо работают только в условиях нормальности данных. Поэтому лучше проверить. Другое дело, что тестов нормальности достаточно много, и, по-хорошему, надо сначала определить, какой из них лучше всего работает в условиях конкретно ваших данных. Но это уже задротство. Так что спокойно работайте, а надменный господин с таким подходом что-нибудь где-нибудь также пропустит, после чего получит очень странный результат.
есть разумное мнение, что если данных мало, то тест всегда покажет, что они нормальные. А если много, то они не нормальные, потому что они всегда не нормальные. Поэтому вместо тестов часто рекомендуют посмотреть прям на колокол или qq-plot. Но зависит от задачи, конечно
Не, ну это было несколько лет назад, и там алгоритмы наверняка несколько раз поменялись, мы тогда лепили первый прототип из спичек и желудей. Да и к вопросу, на который я отвечал, это не имеет отношения. Там обсуждали, что нужно знать дата соентисту для того, чтобы нормально работать, SQL в том числе. Кто-то спросил, что можно сделать на R, чего нельзя с SQL? Ну я и ответил - Шапиро Вилк тест на нормальность - первое, что пришло в голову, просто потому что я с этим работал. Причем, мне сначала наставили плюсов, а потом пришел этот вонючка, и мне наставили минусов.
Меня смущает, что он настаивал, что нужно сразу переходить сразу к основным алгоритмам, минуя проверку нормальности. А у нас проверка нормальности и была основной алгоритм.
проверку нормальности точно не нужно пропускать. Вдруг у вас данные с тяжелым хвостом или как-то еще очевидно не нормально распределены (и, следовательно, не подойдут для использования в ряде моделей). Вопрос в том, имеет ли смысл считать формальные критерии нормальности (все эти Колмогоровы и Шапиры)? Как уже было упомянуто, на слишком мелких выборках какая угодно ерунда может оказаться нормально распределенной, а когда данных много - даже незначительное отклонение от нормальности "сломает" тест. Поэтому остаются только графические методы с оценкой "на глазок". В ряде случаев, н-р когда собрано много данных и не все они одинакого важны, можно пойти формальным путем и делать проверку на нормальность перед расчетами. Все равно в б-ве случаев результаты будут очень близки друг к другу независимо от метода. Такой подход может помочь избежать проблем и лишнего общения с регулятором или ревьюером (смотря в какой вы области).
Ничто не мешает брать альфу, отличную от 0.05. Тогда и проблемы, описанной вами, можно избежать
Обсуждают сегодня