215 похожих чатов

Ребята, правильно ли я все понимаю: есть весь датасет 100%.

Делим его на трейн часть и на отложенную тестовую выборку (пусть 70% на 30%). Далее мы на 70% проводим кросс-валидацию, при помощи которой сравниваем разные модели и выбираем лучшие гиперпараметры. Далее, уже определившись с моделью и ее гиперпараметрами, мы обучаем модель на всей трейн выборке (70% от всего датасета), а потом проверяем качество модели на отложенной выборке (30%). Я все правильно понимаю? Это же общепринятый и стандартный подход к обучению?

3 ответов

5 просмотров

Если классы не сбалансированные ,то при разбиении нужно использовать стратификацию

Если качество ок, тренируешь в последний раз на всей 70+30 выборке с найденными гиперпараметрами и деплоишь

Только почитай ещё как делить данные в которых даты присутствуют, думаю в любой такой статье сразу и объяснят что такое даталики

Похожие вопросы

Обсуждают сегодня

читать файл максимально быстро? странный вопрос))
zamtmn
53
Привет. Сразу скажу, что на C/C++/Rust я не пишу, но тем не менее возникла потребность дебага C/C++/Rust кода. Суть: есть серверное приложение, которое периодически ведёт себ...
ninekeem 🐳
4
А чего сейчас в моде вместо Error для эксепшенов? А то я тут внезапно узрел что он не рекомендуется :) У Try::Tiny какой-то совершенно ужасный синтаксис если надо конкретные э...
Denis F
16
всем привет! углубившись в плюсы и начав изучать реверсинг понял, что без асм'а никуда со своими высокоабстрактными представлениями начал изучать механизмы асма, и не совсем п...
9
буквально один оставшийся вопрос при выполнении строчки mov eax, 5 операнд "5" будет присутствовать где-либо в памяти (любой), кроме как в памяти блока .code? подвопрос: как...
12
Всем ку. Подскажите, если задекларировал массив так: int arr[10] = {1, 2, 3, 4}, то в arr[4] будет мусор или нуль?
Sasha K
14
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
я не понимаю mov [r11+8],rcx и прочие. мы записываем значение из rcx, куда?
Bor
15
у меня такой вопрос про память в x86 возник, может кто пояснить?.. у процессора есть (как минимум) 3 типа адресов (названия "п1", "п2", "п3" --- мои, чтобы проще было дальше)...
Toideng
6
А какие расширения активно используются в промышленности? Именно идейные, по типу гадт, а не всякие оверлоадедстрингс
Степан
11
Карта сайта