169 похожих чатов

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда

разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?

4 ответов

14 просмотров

1. Зависит от постановки задачи. Если вы смотрите разницу в категориях, все ок, если хотите найти разницу по калоражу в среднем - выведите не сумму, а среднее 2. Для постхока я бы рекомендовал критерий Данна из пакета FSA

1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)

3) Эти тесты сравнивают не средние, а их условный непараметрический аналог - средний ранг. Причём средний ранг принимает никак не интерпретируемые значения. Если вам позарез нужны именно средние, то надо делать ANOVA (параметрический). При этом надо понимать, что ANOVA теоретически требует нормальности распределения внутри каждой категории , что может и не соблюдаться. Ещё можно сравнивать не средние, а медианы.

Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет? Пусть тесты показывают, что угодно. 5<6 . В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать. Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта