170 похожих чатов

Добрый вечер,скажите, пожалуйста, правильно ли я понимаю Есть дата сет из

130 строк

1)

если поставить per_device_train_batch_size=2, gradient_accumulation_steps = 8

то у нас градиент при обучении будет счтаться на основе 16 примеров из датасета

и датасет из 130 строк будет пройдет 1 раз за 9 итераций

и если ,при этом, я укажу num_train_epochs = 6, то всего будет выполнено 54 шага.

2)

Я так понимаю чтобы подобрать правильно per_device_train_batch_size и gradient_accumulation_steps

нужно увеличивать per_device_train_batch_size пока не закончится vram и потом исходя из желаемого еффективного размера подобрать gradient_accumulation_steps.

Но как знать какой еффективный размер оптимален?

Как добиться максимального качества обучения (максимальной потери лосса) а рамках подбора этих параметров если скорость обучения не имеет значения ?(per_device_train_batch_size,gradient_accumulation_steps,num_train_epochs)

1 ответов

23 просмотра
Gleb-Maksimov Автор вопроса

еще хотел уточнить стоит ли использовать with torch.cuda.amp.autocast() при тренинге?

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Ребят в СИ можно реализовать ООП?
Николай
33
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Карта сайта