170 похожих чатов

Всем привет, ответьте,пожалуйста, на вопрос: У меня есть LLM на 15

миллиардов весов (17/24 гб vram занимает на карте) квантизованная до 8 бит

Задача - генерация java кода

Мне нужне ее дообучить правильно ставить аннотации в джава коде

У меня есть инструкционный датасет на 130 строк с 2мя колонками ( инпут - (запрос на енглийском), аутпут(java code))

Так как данных мало и мощностей мало, я нашел ток 2 варианта PEFT LORA fine-tuning или тупо зпморозить все слои кроме последнего

Карта 3090 TI 24 gb

С PEFT LORA fine-tuning все прошло гладко, но результата не дало

Решил перейти ко второму варианту но не уверен что далею верно

Морожу так

for name, param in model.named_parameters():
if "39" not in name.split("."):
param.requires_grad = False

Тркнирую с такима аргументами


training_args = transformers.TrainingArguments( #per_device_train_batch_size * gradient_accumulation_steps = batch_size???
per_device_train_batch_size=1, gradient_accumulation_steps = 40,
learning_rate=2e-4, optim="paged_adamw_8bit",
save_total_limit=1, logging_steps=1,
output_dir=OUTPUT_DIR, max_steps=8,
lr_scheduler_type="cosine",
warmup_ratio=0.05, report_to = "tensorboard",
gradient_checkpointing=True, bf16=True,# fp16=True, bf16=True, tf32=True
evaluation_strategy='steps', eval_steps=1
)

Буду рад замечаниям и предложениям)

Вопрос в том верно ли я все делаю и правильно ли выбрал подход

1 ответов

21 просмотр

С кучей заморозки, max_steps=8, таким малым датасетом, квантинизацией и еще и трейном в 8bit я бы сказал счастье что модель не деграднула..

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
как быть с принтером? такой подход прокатит?
zamtmn
12
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Привет. Подскажите, как правильно сматчить лист фиксированного размера, чтобы компилятор не говорил мне о неполном паттерне? Допустим что-то такое [x', y'] = sort [x, y]?
Arseny
8
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Карта сайта