170 похожих чатов

Коллеги, файнтюним потихонечку ruGPT3medium от Сбер по рекомендациям поставили мксимально большой

батч, который выдерживает Colab
в данном случае 16

Для сравнения
16 эпох с батчем 1: 'train_loss': 0.5285637191858495
16 эпох с батчем 16 'train_loss': 1.2891605922154017

это штатная ситуация?
по реальному опыту как лучше поступить дальше?

1. вернуть батч 1 и увеличить эпохи, пока уменьшается ошибка?
2. или так и продолжать с батчем 16, пока уменьшается ошибка?

7 ответов

34 просмотра

А что по val_loss?

> максимально большой батч, который выдерживает Colab Посмотрите gradient accumulation, можно какой угодно батч ставить

Если не ошибаюсь, то батч в 16 раз меньше => за одну эпоху в 16 раз чаще дёргается обновление весов => модель может быстрее двигаться к минимуму лосса, но менее стабильно (если каждый батч логгировать лосс, то при батче = 1 он будет как пила, модель делает шаги то вперёд, то назад по качеству) Надо на val датасете смотреть, не переобучилась ли модель Можно руками проверить несколько разных чекпоинтов, бывает, что меньший loss или даже метрики != лучше результат, если этот результат сложно оценить метриками

делайте лору, файнтьюнинг прошлый век уже...

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта