Коллеги, файнтюним потихонечку ruGPT3medium от Сбер по рекомендациям поставили мксимально большой

Question

Коллеги, файнтюним потихонечку ruGPT3medium от Сбер по рекомендациям поставили мксимально большой

батч, который выдерживает Colab
в данном случае 16

Для сравнения
16 эпох с батчем 1: 'train_loss': 0.5285637191858495
16 эпох с батчем 16 'train_loss': 1.2891605922154017

это штатная ситуация?
по реальному опыту как лучше поступить дальше?

1. вернуть батч 1 и увеличить эпохи, пока уменьшается ошибка?
2. или так и продолжать с батчем 16, пока уменьшается ошибка?

#nlp #programming #russian

0

12.07.2023

7 ответов

59 просмотров

Bogdan

> максимально большой батч, который выдерживает Colab Посмотрите gradient accumulation, можно какой угодно батч ставить

0

12.07.2023

Anatoly Belov Автор вопроса

Bogdan
> максимально большой батч, который выдерживает Co...

увидел, спасибо )

0

12.07.2023

Bogdan

Если не ошибаюсь, то батч в 16 раз меньше => за одну эпоху в 16 раз чаще дёргается обновление весов => модель может быстрее двигаться к минимуму лосса, но менее стабильно (если каждый батч логгировать лосс, то при батче = 1 он будет как пила, модель делает шаги то вперёд, то назад по качеству) Надо на val датасете смотреть, не переобучилась ли модель Можно руками проверить несколько разных чекпоинтов, бывает, что меньший loss или даже метрики != лучше результат, если этот результат сложно оценить метриками

0

12.07.2023

Sergey Bratchikov

делайте лору, файнтьюнинг прошлый век уже...

0

12.07.2023

Curiosity

Sergey Bratchikov
делайте лору, файнтьюнинг прошлый век уже...

бред

0

13.07.2023

Anatoly Belov Автор вопроса