целом, кажется немного надуманной, многое не проработано, больше похоже на самостоятельное изучение инструмента. Что думаете?
мои соображения:
Отличная статья. Как по задаче, так и по подаче материала. Добавлю 5 копеек. Примерно аналогичные задачи смотрели в продуктовом ритейле со вполне понятной целью -- сегментация пользователей и построение единого профиля покупателя.
Для моделирования использовались различные распределения. Экспоненциальное, степенное, а также гамма, логнормальное и вейбула (ноги из теории надежности). Формально распределения должны быть только для неотрицательных значений -- область определения ограничена.
Если смотреть просто на промежутки между покупками, то ничего не понятно, одна каша. Если построить физическую модель, то все становится прозрачным. Дело в том, что визиты никак не являются случайными событиями. Они лимитируются семейным месячным бюджетом (если трекинг по карте лояльности) и суточными нормами потребления. И каждый визит влияет на последующие.
Из временного представления переходим в частотный (вспоминаем спектроскопию, time-domain vs frequency-domain) и отчетливо видим 2-3 частотных пика, спектр отнюдь не непрерывный. Причем каждый пик несет разное энергетическое воздействие (занос денег). Раз в 2-3 дня -- чек небольшой, покупка скоропорта. Недельный или двухнедельный пик -- глобальная закупка.
Т.е. покупатель действует по двум несмешиваемым моделям поведения и их легко можно разделить (dsp processing). Т.е. каждый кусок во временном представлении отвечает за свою модель покупок и не надо делать никаких мультимоделей.
Никаких проверок тестами на нормальность или пр. и споров про p-value вообще не делали -- в чем смысл? Внутренней механики мы не знаем, можем взять то распределение, которое лучше фитится и с которым потом проще возиться, в т.ч. аналитически. Для оценки качества фиттинга смотрели на q-q график -- так становится более понятно, где идет расхождение и какова его разница между различными моделями фиттинга. Нас ведь интересует наилучшая аппроксимация на определенных частях, а не на всем интеграле. Еще эта штука хороша: `fitdistrplus::descdist`
в радиотехнических системах встречаются смеси распределений. Например: ночью система работает квазипериодически (примерно с равными интервалами), а днем интенсивность ее возрастает, распределение интервалов приближается к логнормальному или пуассоновскому. В статье описывается похожая ситуация. Только б понять - почему такие интервалы между банковскими тратами. Ну может потому что есть какие то фиксированные траты - каждое утро,примерно, в одно и то же время я покупаю кофе или пачку сигарет, как то так.
Я тут обратил внимание на разницу в расчетах в хабравской статье и в комментариях @iMissile В статье автор же все свои траты анализировал, как я понял. При этом сравнивались лодки с селедками, т.е. транзакция в пятерочке, потом на заправке, потом еще где-то (оплата подписки, например). Так что вполне нормально, что результаты получились бессмысленные. У @iMissile был пример, когда ритейл отслеживает именно своих покупателей с использованием какого-то идентификатора. и тогда уже картина совсем иная - мелкие частые покупки vs большие поездки раз в 2 недели. С другой стороны, у ритейла нет информации о покупках в других магазинах, например. Но это м.б. и не нужно для решаемой задачи
Да я более про частотный анализ. Физика задачи многое может объяснить
автор в статье - это один пользователь, покупатели в ритейле - группа пользователей, групповой поток заявок, если говорить на языке теории массового обслуживания.
Разговор в статье про анализ распределений
мне это понятно
Обсуждают сегодня