169 похожих чатов

Здравствуйте! У меня есть данные из меню масдональдса. Там блюда

разбиты на категории. Я хочу сравнить категории и определить, как в среднем различаются калорийность, содержание жиров и другие параметры в зависимости от категории.
1) Является ли проблемой для выполнения этой задачи то, что категории содержат разное количество блюд?
2) Я сравниваю категории, запуская Kruskal-Wallis test. Но этот тест просто показывает то, что есть статистически значимая разница между группами. Далее я запускаю Wilcoxon test pairwise.wilcox.test(df$Calories, df$Category, p.adjust.method = "BH", exact=F, correct=F). Этот тест показывает между какими именно группами есть статистическая разница в калорийности.
Скажите, я правильно делаю, используя эти тесты и в такой последовательности?

4 ответов

10 просмотров

1. Зависит от постановки задачи. Если вы смотрите разницу в категориях, все ок, если хотите найти разницу по калоражу в среднем - выведите не сумму, а среднее 2. Для постхока я бы рекомендовал критерий Данна из пакета FSA

1) сомнительно, что это вообще данные для каких-либо критериев индуктивной статистики, так как все они подразумевают случайную выборку из элементов генеральной совокупности. Выписать рецепты блюд определённой категории в определенном заведении - это не случайная выборка и, скорее всего, вообще генеральная совокупность (вы же не оставили никаких блюд за бортом)

3) Эти тесты сравнивают не средние, а их условный непараметрический аналог - средний ранг. Причём средний ранг принимает никак не интерпретируемые значения. Если вам позарез нужны именно средние, то надо делать ANOVA (параметрический). При этом надо понимать, что ANOVA теоретически требует нормальности распределения внутри каждой категории , что может и не соблюдаться. Ещё можно сравнивать не средние, а медианы.

Мне кажется тут сама постановка не корректна. Пусть у меня есть два отделения кошелька. В одном лежат 5 купюр по 1000 в другом 4 куюпюры по 1000 и одна на 2000. Если я найду такой тест, который покажет что различия не значимы - значит ли это что их действительно не будет? Пусть тесты показывают, что угодно. 5<6 . В системах с полной информацией это просто не нужно. Нечего апроксимировать. Эффективне просто посчитать. Тесты помогают решить ситуцию когда у меня в каждом отделении по 1000 купюр , вы вытаскиваете по 100 и делаете вывод о том в каком отделении денег больше. Тут тесты помогут.

Похожие вопросы

Обсуждают сегодня

Какой-то там пердун в 90-х решил, что есть какая-то разная типизация. Кого вообще это волнует?
КТ315
49
void terminal_scroll() { memmove(terminal_buffer, terminal_buffer + VGA_WIDTH, buffer_size - VGA_WIDTH); memset(terminal_buffer + buffer_size - VGA_WIDTH, 0, VGA_WIDTH); ...
Егор
47
Всем привет! Подскажите, пожалуйста, в чем ошибка? Настраиваю подключение к MySQL. Либы лежат рядом с exe. Все как по "учебнику"
Евгений
16
А можете как-то проверить меня по знаниям по ассемблеру?
A A
132
Здравствуйте! У меня появилась возможность купить книгу "Изучай Haskell во имя добра!". Но я где-то слышал, что эта книга устарела. Насколько это правда??
E
22
Здравствуйте! Я вот на stepic решаю задачи на хаскеле https://stepik.org/lesson/8443/step/8?unit=1578 мой код import Data.List (isInfixOf) removing :: String -> [String] ->...
E
10
Камрады, кто тесно работал с vtv, хотел уточнить. Ширина column задаётся жёстко на этапе создания дерева или можно в рантайме ее менять программно (не мышкой)?
Ed Doc
10
да ладно ... что там неочевидного ? глянуть в исх-ки датасета и/или кверика чтобы понять в каком месте и как выполняется обращения к св-вам blablaSQL - минутное дело, даже е...
Сергей
7
Здесь для arm кто-нибудь кодит ?
Nothing
52
Всем привет, у меня есть сервер принимающий входящие HTTP подключения, как проверить, что подключение было через прокси или нет, есть какие то поля в заголовках по которым мо...
Кибер Бомж
8
Карта сайта