количестве данных? Сейчас стандартный файн тюнинг обучение занимает 12 часов, если обучать адаптеры будет выигрыш по времени? Будет просадка по качеству?
Так можно файнтюнить последний классификационный слой
По коду вроде что-то такое: for name, param in model.named_parameters(): if 'classifier' not in name: param.requires_grad = False
Это будет то же самое что адаптеры? Я так понимаю что примерно тоже, но на адаптерах будет больше весов
вроде адаптеры не дают выигрыша по времени, но по памяти в этой статье перечислены способы уменьшения времени обучения https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one
Просадка по качеству будет, но скорее всего не значительная. А время обучения в теории может сократиться только за счёт большего батча. На практике +- такое же (потому что есть ещё пропускная способность карточки)
И вообще что такое 12 часов? Не месяц же
Хочется взять например 10 бертов разных пообучать, взять разные гиперпараметры, заморозить разные слои. То есть хочется много раз запустить обучение, так и на месяц уйдёт
Ну, покупай больше ГПУ. Только так реально ускорить обучение кратно) Int8 быстрее обучение не сделает (если у тебя не H100) Лора с тем же батчем только медленнее сделает Fp16 сделает быстрее обучение, но не кратно
lora позволяет учить с большим батчем потому что не все градиенты будут считаться + потому что можно загрузить основную сеть в int8 fp16 у меня ускоряет обучение примерно кратно) т.е. в 2 раза
Обсуждают сегодня