170 похожих чатов

Коллеги, файнтюним потихонечку ruGPT3medium от Сбер по рекомендациям поставили мксимально большой

батч, который выдерживает Colab
в данном случае 16

Для сравнения
16 эпох с батчем 1: 'train_loss': 0.5285637191858495
16 эпох с батчем 16 'train_loss': 1.2891605922154017

это штатная ситуация?
по реальному опыту как лучше поступить дальше?

1. вернуть батч 1 и увеличить эпохи, пока уменьшается ошибка?
2. или так и продолжать с батчем 16, пока уменьшается ошибка?

7 ответов

30 просмотров

А что по val_loss?

> максимально большой батч, который выдерживает Colab Посмотрите gradient accumulation, можно какой угодно батч ставить

Если не ошибаюсь, то батч в 16 раз меньше => за одну эпоху в 16 раз чаще дёргается обновление весов => модель может быстрее двигаться к минимуму лосса, но менее стабильно (если каждый батч логгировать лосс, то при батче = 1 он будет как пила, модель делает шаги то вперёд, то назад по качеству) Надо на val датасете смотреть, не переобучилась ли модель Можно руками проверить несколько разных чекпоинтов, бывает, что меньший loss или даже метрики != лучше результат, если этот результат сложно оценить метриками

делайте лору, файнтьюнинг прошлый век уже...

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Ребят в СИ можно реализовать ООП?
Николай
33
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Карта сайта