два варианта: текущий и экспериментальный.
Какой правильный дизайн, если мы хотим проверить экспериментальный вариант на 5% пользователей? Метрику по ним потом сравнивать с 95% контрольных польз. или надо делать так: 90% на текущем (и по ним не смотрим метрику), и 5% на текущем (и здесь смотрим метрику), и 5 на эксперименте (тоже смотрим метрику)?
А ваши 5% пользователей - это сколько пользователей?
Речь идёт о DAU в ~100 тыс.
смотря какие метрики если гросс смотрите, то конечно 95% будут у вас в выигрыше
С математический точки зрения, нет проблем использовать две группы 95% и 5 %. Разделили как смогли. Что происходит в головах у "продуктовых людей" - загадка.
Будем смотреть относительные, конверсию в конкретный тип события.
Понял) Просто интересно, с точки зрения, статистических закономерностей, есть ли какое-то эмпирическое правило, что лучше сравнивать группы одинакового размера?
нет такого правила есть требование к размеру выборки точнее, выборка должна быть достаточно большой, чтобы ошибка пропуска эффекта была в приемлемых границах но это вам надо читать power analysis и связанные темы
На практике с таким сплитом (даже игнорируя чисто технические проблемы протухания тестовых кук) и при использовании классического t-теста могут возникать проблемы, особенно на скошенных распределениях, от которых t-test страдает. Вот тут в 7 главе можно прочитать подробнее А на русском про неровные сплиты можно вот тут глянуть
Спасибо! Обе статьи тоже изучу 👍
Если мы сами делим на 2 группы, то группы равного размера правильно делать потому что точность сравнения ограничивается размером меньшей группы
Мы будем использовать Вариокуб из АппМетрики для мобильного приложения, там оно само рандомизирует по контролю и эксперименту. Но можно задать заранее проценты от числа пользователей.
введите "калькулятор АБ-тест" в поисковике и потыцкайте немного =)
Да, с калькулятором от Evan Miller поигрался уже немного)
Обсуждают сегодня