на output?
И насколько норм увеличивать?
И насколько увеличение увеличит время тренировки?
При тоенировке модель выучит распределение тренировочных данных. Если тренироваться на последовательностях из 100 токенов, то не стоит ожидать хорошего качества генерации более чем 100 токенов Я обычно выбираю длину на основе 95-99 перцентили длины таргет текста
Обсуждают сегодня