А можно использовать адаптеры для finetuning обычных бертов на большом

Question

А можно использовать адаптеры для finetuning обычных бертов на большом

количестве данных? Сейчас стандартный файн тюнинг обучение занимает 12 часов, если обучать адаптеры будет выигрыш по времени? Будет просадка по качеству?

#nlp #programming #russian

0

27.07.2023

10 ответов

41 просмотр

datascience xc

По коду вроде что-то такое: for name, param in model.named_parameters(): if 'classifier' not in name: param.requires_grad = False

0

27.07.2023

Alexander Автор вопроса

datascience xc
Так можно файнтюнить последний классификационный с...

Это будет то же самое что адаптеры? Я так понимаю что примерно тоже, но на адаптерах будет больше весов

0

27.07.2023

Vladimir P

вроде адаптеры не дают выигрыша по времени, но по памяти в этой статье перечислены способы уменьшения времени обучения https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one

0

27.07.2023

Эмиль Шакиров

Просадка по качеству будет, но скорее всего не значительная. А время обучения в теории может сократиться только за счёт большего батча. На практике +- такое же (потому что есть ещё пропускная способность карточки)

0

27.07.2023

Эмиль Шакиров

И вообще что такое 12 часов? Не месяц же

0

27.07.2023

Alexander Автор вопроса

Эмиль Шакиров
И вообще что такое 12 часов? Не месяц же

Хочется взять например 10 бертов разных пообучать, взять разные гиперпараметры, заморозить разные слои. То есть хочется много раз запустить обучение, так и на месяц уйдёт

0

27.07.2023

Эмиль Шакиров

Alexander
Хочется взять например 10 бертов разных пообучать,...

Ну, покупай больше ГПУ. Только так реально ускорить обучение кратно) Int8 быстрее обучение не сделает (если у тебя не H100) Лора с тем же батчем только медленнее сделает Fp16 сделает быстрее обучение, но не кратно

0

27.07.2023

Konstantin Chernyshev

Эмиль Шакиров
Ну, покупай больше ГПУ. Только так реально ускорит...

lora позволяет учить с большим батчем потому что не все градиенты будут считаться + потому что можно загрузить основную сеть в int8 fp16 у меня ускоряет обучение примерно кратно) т.е. в 2 раза

0

27.07.2023

Konstantin Chernyshev

Konstantin Chernyshev
lora позволяет учить с большим батчем потому что н...

Про скорость обучения

0

27.07.2023

datascience xc · Accepted Answer

datascience xc

Так можно файнтюнить последний классификационный слой

0

27.07.2023

170 похожих чатов

А можно использовать адаптеры для finetuning обычных бертов на большом

10 ответов

Похожие вопросы