фреймворк на 500к строк. из них около 2к выполнили необходимое действие. есть ли смысл строить модель на определение вероятности выполнения действия, при таком соотношении данных? и если да то в какую сторону смотреть? советовали catboost
Сделай репрезентативную подвыборку , потом сделай pipeline , потом проверь точность модели на всей выборки
Кажется команда в pandas называется sample :)
Обсуждают сегодня