отклонения от нормального для rnorm():
> mean(replicate(100000,ks.test(rnorm(1000), "pnorm")$p.value) < 0.05)
[1] 0.04801
То же самое для шапиро-уилка и других тестов.
Проблема начинается в том, что в природе идеальное нормальное распределение редко где можно найти (если вообще можно), там всегда будут какие-то пусть и небольшие, но отклонения от нормальности. Так что эти симуляции с rnorm() ничего не говорят о паранойяльности кс-теста.
Другое дело, что все эти тесты ведут себя так же как и любые другие статистические тесты: на маленьких выборках не видят в глазу бревна, а на больших видят даже совсем незначительное отклонение от нормальности. Если мы ориентируемся, как обычно, на p.value.
Парадокс в том, что нам нужно нечто обратное: чем больше выборка, тем меньше нам страшны отклонения от нормальности.
Так вот: почему бы не считать какие-нибудь размеры эффектов для тестов на нормальность вместо p? И если уж использовать тесты на нормальность для проверки допущений модели, то использовать в качестве критерия размер отклонения от нормальности, а не p.value?
👍
Обсуждают сегодня