статистических гипотез?
Файл с примером прикрепляю к сообщению.
Проводится АБ тест и сравниваются две группы: Группа А и Группа Б. Метрика - это конверсия в определенное действие, принимает значение 0 или 1, следовательно, имеет распределение Бернулли.
Группы видели разную версию сайта.
В Группе А (контрольная) находится 1554 наблюдения, в Группе Б (тестовая) - 708 наблюдений.
Метрика распределена не нормально, но наблюдений достаточно много, значит можно использовать t.test, в модификации Уэлча.
tt <- t.test(Конверсия ~ Группа, data = df)
tt
Welch Two Sample t-test
data: Конверсия by Группа
t = 3.1642, df = 1548.1, p-value = 0.001586
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.01929138 0.08221812
sample estimates:
mean in group Группа А mean in group Группа Б
0.1821107 0.1313559
P-value меньше 5%, значит различия значимы. Точечная разница между двумя средними 0,0508 (этой цифры почему-то нет в выводе t.test), интервальная разница - от 0,0193 до 0,0822.
Визуализировать разницу двух средних я могу следующим кодом:
ggplot(data = df, aes(x = Группа, y = Конверсия)) +
stat_summary(fun.data = mean_cl_normal)
Посчитать циферно границы доверительных интервалов я могу следующим кодом:
t_CI <- function(data) {
n = length(data) ; m = mean(data)
SE = sd(data)/sqrt(n) ; E = qt(.975, df=n-1)*SE
CI <- m + c(-E, E)
return (c(m , CI))
}
library(data.table)
setDT(df)
t_CI(df[Группа == 'Группа А']$Конверсия)
t_CI(df[Группа == 'Группа Б']$Конверсия)
Итого, вывод: в Группе Б истинная конверсия (в ген совокупности) хуже. Она лежит в границах от 10,6% до 15,6%, тогда как в Группе А она лежит в пределах от 16,3% до 20,1%.
Все ли верно в мои рассуждениях?
Если по классике, то надо использовать prop.test вместе t.test
Потому что биномиальное распределение, у него дисперсия - функция от среднего,а не независимая величина, как предполагается в t.test
Так, ладно, сейчас почитаю, спасибо)
Но в реальной жизни все сложно:) https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f На мой взгляд, если хотите почти пуленепробиваемый вариант, то лучше использовать функцию one_way из пакета coin. Она делает перестановочный тест. Для него практически не нужны предложения о ваших данных. Надо просто, чтобы обе группы были из одного распределения (т. е. случайное разбиение) и наблюдения независимы.
И, к слову, не обязательно использовать свою функцию для доверительных интервалов. У tt уже есть готовая компонента conf.int: tt$conf.int
Здесь выводится интервал разницы распределений)
тоже сейчас почитаю))
А, не обратил внимание, сорян)
Почему то не хочет показывать доверительный интервал ( df$Группа <- as.factor(df$Группа) one_way <- oneway_test(Конверсия ~ Группа, conf.int = TRUE, data = df) confint(one_way) Пишет Error in confint(one_way) : cannot compute confidence interval for objects of class “ScalarIndependenceTest”
Интересно, а так? one_way@conf.int компа сейчас под рукой нет - не могу сам проверить
Тоже ошибку выдает ) Error in one_way$conf.int : $ operator not defined for this S4 class
Собака, а не доллар нужен)
Я думал опечатка :)) Тогда вот такая ошибка) > one_way@conf.int Error: no slot of name "conf.int" for this object of class "ScalarIndependenceTest"
Обсуждают сегодня