Здравствуйте! У меня есть данные из меню масдональдса. Там блюда

Question

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда

разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?

#programming #r #russian

0

05.07.2020

4 ответов

42 просмотра

Александр Райков

1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)

0

05.07.2020

Александр Райков

3) Эти тесты сравнивают не средние, а их условный непараметрический аналог - средний ранг. Причём средний ранг принимает никак не интерпретируемые значения. Если вам позарез нужны именно средние, то надо делать ANOVA (параметрический). При этом надо понимать, что ANOVA теоретически требует нормальности распределения внутри каждой категории , что может и не соблюдаться. Ещё можно сравнивать не средние, а медианы.

0

05.07.2020

Ivan Struzhkov

Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет? Пусть тесты показывают, что угодно. 5<6 . В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать. Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.

0

05.07.2020

Александр · Accepted Answer

Александр

1. Зависит от постановки задачи. Если вы смотрите разницу в категориях, все ок, если хотите найти разницу по калоражу в среднем - выведите не сумму, а среднее 2. Для постхока я бы рекомендовал критерий Данна из пакета FSA

0

05.07.2020

169 похожих чатов

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда

4 ответов

Похожие вопросы