из huggingface? Берт максимум принимает 512 токенов, сохраняются ли pretrained веса при уменьшении?
А насчёт деберты читал, что она может принимать последовательности до 24к, хотя в default стоит тоже 512, если не ошибаюсь. При увеличении длины, она будет работать с теми же pretrained весами?
то что вы тут описываете, это настроцка токенизатора, она не имеет прямого отношения к самой модели и ее весам
Обсуждают сегодня