сохраняет, т.е. если для этого 9 эпох надо, то хоть 15, хоть 115 нет разницы?
нет гарантии что на N+1 скор не улучшится. поэтому одно из двух 1. прерывают обучение, когда val_score начинает расти, 2. учат 1000 и более. суть в поиске минимума функции ошибки итеративно. поверхность эта всякая разная бывает, но обычно в "оврагах" оптимизаторы типа adam быстро справляются. я лично учу пока скор на валидации падает, и потом еще немножко, чтобы понять что упал)
1000 это уже переобучение ведь, там показатели нормальные, а реально нет?
Если не заниматься вот таким извратом, то да - на трейне супер, на валидации фигня
Это зависит от модели данных, то есть то о чем я вам уже говорил. Вам нужно измерять метрики вашей модели и смотреть как они меняется с течением эпох
для SGD и 2000 нормально. надо следить за метриками, как уже сказали
Можно ещё воспользоваться wandb Помогает смотреть метрики онлайн Типо онлайн графики там строить и тд Просто метрики на сервак отправлять
Обсуждают сегодня