батч, который выдерживает Colab
в данном случае 16
Для сравнения
16 эпох с батчем 1: 'train_loss': 0.5285637191858495
16 эпох с батчем 16 'train_loss': 1.2891605922154017
это штатная ситуация?
по реальному опыту как лучше поступить дальше?
1. вернуть батч 1 и увеличить эпохи, пока уменьшается ошибка?
2. или так и продолжать с батчем 16, пока уменьшается ошибка?
А что по val_loss?
> максимально большой батч, который выдерживает Colab Посмотрите gradient accumulation, можно какой угодно батч ставить
увидел, спасибо )
Если не ошибаюсь, то батч в 16 раз меньше => за одну эпоху в 16 раз чаще дёргается обновление весов => модель может быстрее двигаться к минимуму лосса, но менее стабильно (если каждый батч логгировать лосс, то при батче = 1 он будет как пила, модель делает шаги то вперёд, то назад по качеству) Надо на val датасете смотреть, не переобучилась ли модель Можно руками проверить несколько разных чекпоинтов, бывает, что меньший loss или даже метрики != лучше результат, если этот результат сложно оценить метриками
делайте лору, файнтьюнинг прошлый век уже...
увидел, спасибо )
Обсуждают сегодня