170 похожих чатов

А можно использовать адаптеры для finetuning обычных бертов на большом

количестве данных? Сейчас стандартный файн тюнинг обучение занимает 12 часов, если обучать адаптеры будет выигрыш по времени? Будет просадка по качеству?

10 ответов

23 просмотра

Так можно файнтюнить последний классификационный слой

По коду вроде что-то такое: for name, param in model.named_parameters(): if 'classifier' not in name: param.requires_grad = False

Alexander- Автор вопроса
datascience xc
Так можно файнтюнить последний классификационный с...

Это будет то же самое что адаптеры? Я так понимаю что примерно тоже, но на адаптерах будет больше весов

вроде адаптеры не дают выигрыша по времени, но по памяти в этой статье перечислены способы уменьшения времени обучения https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one

Просадка по качеству будет, но скорее всего не значительная. А время обучения в теории может сократиться только за счёт большего батча. На практике +- такое же (потому что есть ещё пропускная способность карточки)

И вообще что такое 12 часов? Не месяц же

Alexander- Автор вопроса
Эмиль Шакиров
И вообще что такое 12 часов? Не месяц же

Хочется взять например 10 бертов разных пообучать, взять разные гиперпараметры, заморозить разные слои. То есть хочется много раз запустить обучение, так и на месяц уйдёт

Alexander
Хочется взять например 10 бертов разных пообучать,...

Ну, покупай больше ГПУ. Только так реально ускорить обучение кратно) Int8 быстрее обучение не сделает (если у тебя не H100) Лора с тем же батчем только медленнее сделает Fp16 сделает быстрее обучение, но не кратно

Эмиль Шакиров
Ну, покупай больше ГПУ. Только так реально ускорит...

lora позволяет учить с большим батчем потому что не все градиенты будут считаться + потому что можно загрузить основную сеть в int8 fp16 у меня ускоряет обучение примерно кратно) т.е. в 2 раза

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Я вот подумал. SSE выполняет операции максимум с 64-битной точностью. А FPU - всегда с 80-битной. Разве не должно быть FPU точнее тогда?
The Bird of Hermes
13
как быть с принтером? такой подход прокатит?
zamtmn
12
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Я не понимаю, это троллинг или что? Швабрика поддерживают, который буквально пишет на ассемблере взаимодействия с винапи. Я это ещё написал загрузчик и хоть что-то изучаю в о...
Shadow Akira
6
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Привет. Подскажите, как правильно сматчить лист фиксированного размера, чтобы компилятор не говорил мне о неполном паттерне? Допустим что-то такое [x', y'] = sort [x, y]?
Arseny
8
Карта сайта