169 похожих чатов

Любопытная статья. Дописал свои комментарии на хабре, здесь дублирую. Тема статьи, в

целом, кажется немного надуманной, многое не проработано, больше похоже на самостоятельное изучение инструмента. Что думаете?

мои соображения:
Отличная статья. Как по задаче, так и по подаче материала. Добавлю 5 копеек. Примерно аналогичные задачи смотрели в продуктовом ритейле со вполне понятной целью -- сегментация пользователей и построение единого профиля покупателя.

Для моделирования использовались различные распределения. Экспоненциальное, степенное, а также гамма, логнормальное и вейбула (ноги из теории надежности). Формально распределения должны быть только для неотрицательных значений -- область определения ограничена.

Если смотреть просто на промежутки между покупками, то ничего не понятно, одна каша. Если построить физическую модель, то все становится прозрачным. Дело в том, что визиты никак не являются случайными событиями. Они лимитируются семейным месячным бюджетом (если трекинг по карте лояльности) и суточными нормами потребления. И каждый визит влияет на последующие.

Из временного представления переходим в частотный (вспоминаем спектроскопию, time-domain vs frequency-domain) и отчетливо видим 2-3 частотных пика, спектр отнюдь не непрерывный. Причем каждый пик несет разное энергетическое воздействие (занос денег). Раз в 2-3 дня -- чек небольшой, покупка скоропорта. Недельный или двухнедельный пик -- глобальная закупка.

Т.е. покупатель действует по двум несмешиваемым моделям поведения и их легко можно разделить (dsp processing). Т.е. каждый кусок во временном представлении отвечает за свою модель покупок и не надо делать никаких мультимоделей.

Никаких проверок тестами на нормальность или пр. и споров про p-value вообще не делали -- в чем смысл? Внутренней механики мы не знаем, можем взять то распределение, которое лучше фитится и с которым потом проще возиться, в т.ч. аналитически. Для оценки качества фиттинга смотрели на q-q график -- так становится более понятно, где идет расхождение и какова его разница между различными моделями фиттинга. Нас ведь интересует наилучшая аппроксимация на определенных частях, а не на всем интеграле. Еще эта штука хороша: `fitdistrplus::descdist`

6 ответов

22 просмотра

в радиотехнических системах встречаются смеси распределений. Например: ночью система работает квазипериодически (примерно с равными интервалами), а днем интенсивность ее возрастает, распределение интервалов приближается к логнормальному или пуассоновскому. В статье описывается похожая ситуация. Только б понять - почему такие интервалы между банковскими тратами. Ну может потому что есть какие то фиксированные траты - каждое утро,примерно, в одно и то же время я покупаю кофе или пачку сигарет, как то так.

Fog jilkin
в радиотехнических системах встречаются смеси расп...

Я тут обратил внимание на разницу в расчетах в хабравской статье и в комментариях @iMissile В статье автор же все свои траты анализировал, как я понял. При этом сравнивались лодки с селедками, т.е. транзакция в пятерочке, потом на заправке, потом еще где-то (оплата подписки, например). Так что вполне нормально, что результаты получились бессмысленные. У @iMissile был пример, когда ритейл отслеживает именно своих покупателей с использованием какого-то идентификатора. и тогда уже картина совсем иная - мелкие частые покупки vs большие поездки раз в 2 недели. С другой стороны, у ритейла нет информации о покупках в других магазинах, например. Но это м.б. и не нужно для решаемой задачи

Ilya-Shutov Автор вопроса
Ed P
Я тут обратил внимание на разницу в расчетах в хаб...

Да я более про частотный анализ. Физика задачи многое может объяснить

Ed P
Я тут обратил внимание на разницу в расчетах в хаб...

автор в статье - это один пользователь, покупатели в ритейле - группа пользователей, групповой поток заявок, если говорить на языке теории массового обслуживания.

Ilya-Shutov Автор вопроса
Fog jilkin
автор в статье - это один пользователь, покупатели...

Разговор в статье про анализ распределений

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта