170 похожих чатов

Привет! Читаю в Attention is all you need, что авторы

при обучении подбирали батчи примерно с одинаковым количеством символов.
Sentence pairs were batched together by approximate sequence length. Each training
batch contained a set of sentence pairs containing approximately 25000 source tokens and 25000
target tokens.
Это как одна из стратегий регуляризации? Я вот думаю, нужно ли мне это делать для своей задачи NLLB fine-tuning? В данных встречаются как совсем короткие, так и длинные предложения.

5 ответов

10 просмотров

1) вычисление селф аттеншена тем дольше, чем длиннее последовательности 2) связь - квадратичная. Для N токенов нужно N^2 памяти/вычислений 3) если у тебя строки разной длины — их нужно добить до одной длины с помощью ничего не значащих токенов. Они всё еще участвуют в вычислениях, но на последующих этапах их выкидывают 4) выходит, если большая разница в длинах, то делается много ненужных вычислений. Можно этого избежать, если все токены будут полезными. 5) для файнтюнинга в целом работает тот же приём, только если нет паддинга до одной и той же длинны каждый раз, иначе разницы нет.

Kate-Sinkova Автор вопроса
See All
1) вычисление селф аттеншена тем дольше, чем длинн...

Понятно, выходит это сделано для оптимизации вычислений. P.S. Ааа, мне Игорь ответил😌😌😌 Я твое видео про трансформеры три раза посмотрела, спасибо за него

See All
1) вычисление селф аттеншена тем дольше, чем длинн...

Но при этом у нас снижается вариативность данных в мини батче, что может приводить к худшей итоговой сходимость (а может и нет) но обычно вроде группировку по длине делают с некоторой погрешностью, скажем процентов 20 например

Антон Легченко
Но при этом у нас снижается вариативность данных в...

насколько я видел практики, там делается rolling buffer. Из датасета вычитывается несколько сотен батчей, они внутри этой кучи сортируются по длине, и затем оттуда по порядку берутся данные

See All
насколько я видел практики, там делается rolling b...

Ага, я в кастомных пайплайнах обычно заранее делал грубую группировку

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Привет. Подскажите, как правильно сматчить лист фиксированного размера, чтобы компилятор не говорил мне о неполном паттерне? Допустим что-то такое [x', y'] = sort [x, y]?
Arseny
8
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Карта сайта