человек. 10000 из них пользуются одной услугой. Из этих миллиона человек мне надо найти всех потенциальных пользователей этой услуги. Что я предпринимаю. Я беру из 990000 человек которые не пользуются этой услугой сэмпл из 10000. И на этих данных делаю модель. Потом прогоняю эту модель на оставшихся 980000. И тем у кого предсказывает что он пользуется данной услугой, рекламирую ее. Такой подход логичен, или есть более подходящий вариант?
число пользователей, которые воспользуются услугой, будет сильно завышено в прогнозе т.к. на трейне их было аж 50% (стоит покалибровать precision/recall тут), а так да, должно сработать
Обсуждают сегодня