Насколько норм на full LLM finetune уменьшать макс кол-во токенов

на output?

И насколько норм увеличивать?

И насколько увеличение увеличит время тренировки?

1 ответов

41 просмотр

При тоенировке модель выучит распределение тренировочных данных. Если тренироваться на последовательностях из 100 токенов, то не стоит ожидать хорошего качества генерации более чем 100 токенов Я обычно выбираю длину на основе 95-99 перцентили длины таргет текста

Похожие вопросы

Карта сайта