собственных данных на задачу перевода? 10 эпох
или обучать 5 эпох, сохранить, заново скачать и еще раз 5 эпох,
то теоретически, метрика Bleu по итогу должна быть +/- одинаковой?
или как?
Если втором случае заново инициализировать optimizer (а не сохранить после 5 эпох на диск и потом восстановить его состояние), то во втором случае может получиться чуть хуже, так как в начале второго раунда обучения оптимайзер будет сырой и не такой эффективный. Но в моем опыте эта разница была на очень большая.
имеется ввиду после обучения сохранить на huggingface через trainer.push_to_hub() потом полностью закрыть сеанс, начать все сначала и на этом моменте загрузить "новую" модель, а дальше все параметры тренировки одинаковые
если оптимизер посложнее чем sgd, и при рестарте не подгружать параметры оптимизера, то из-за warmup-а с рестартом будет похуже
увидел, спасибо )
Обсуждают сегодня