Делим его на трейн часть и на отложенную тестовую выборку (пусть 70% на 30%). Далее мы на 70% проводим кросс-валидацию, при помощи которой сравниваем разные модели и выбираем лучшие гиперпараметры. Далее, уже определившись с моделью и ее гиперпараметрами, мы обучаем модель на всей трейн выборке (70% от всего датасета), а потом проверяем качество модели на отложенной выборке (30%). Я все правильно понимаю? Это же общепринятый и стандартный подход к обучению?
Если классы не сбалансированные ,то при разбиении нужно использовать стратификацию
Если качество ок, тренируешь в последний раз на всей 70+30 выборке с найденными гиперпараметрами и деплоишь
Только почитай ещё как делить данные в которых даты присутствуют, думаю в любой такой статье сразу и объяснят что такое даталики
Обсуждают сегодня