решают задачу кластеризации пользователей? Точнее, как определяют количество кластеров, которое необходимо передать как параметр алгоритма? Просто перебирают?
2) Если есть кусок кода, который что-то делает (скажем, проводит преобразования и далее - стат. тест), и далее этот блок не переиспользуется, то какая практика считается лучше:
а) написать функцию,
б) оставить просто блок кода?
1. таблица пользователь - параметр отправляется в функцию кластеризации Например. Имя и Возраст. На выходе получаются кластеры. Каждому кластеру соответствует некоторая группа. Так примерно, полагаю
В "реальных кейсах" кластеризацию юзеров вообще очень редко делают. Её результаты довольно плохо предсказуемы, для продакшна это недопустимо. В тех кейсах, с которыми я сталкивался, юзеров пытаются сегментировать в ходе разведочного анализа, а потом, если какие-то полезные группы выделились, делают для этих групп внятные метки, и переходят от кластеризации к классификации с осмысленными классами. А вам зачем понадобилось кластеризацию делать? Число кластеров надо выбирать, ориентируясь на конечную цель)
Есть алгоритмы которые автоматом высчитывают нужное количество кластеров.
Да у меня этот вопрос возник как гипотетический в процессе решения тестового задания
Почему редко? А для программ лояльности?
Я делал реальную классификацию и сегментацию. Более того, без этого тот бизнес ну никак
Обсуждают сегодня