Всем привет Подскажите, пожалуйста Изучаю возможные улучшения трансформеров, дошел до rotary embeddings.

Question

Всем привет Подскажите, пожалуйста Изучаю возможные улучшения трансформеров, дошел до rotary embeddings.

1. Правильно ли я понял, что их используют не вместо синусоидальных эмбеддингов в энкодере и декодере, а в attention, добавляя к q и k?
2. Если да, используют ли для кодирования позиций токенов что-то кроме синусоидальных, или используют в основном rotary в attention и синусоидальные в энкодере и декодере?

#nlp #programming #russian

0

28.09.2023

3 ответов

31 просмотр

whatisslove Автор вопроса

Тимофей Смирнов
Кажется сейчас все используют только rotary, призн...

а для кодирования позиций токенов ничего не используется? их не добавляют теперь?

0

28.09.2023

Тимофей Смирнов

whatisslove
а для кодирования позиций токенов ничего не исполь...

Ну так у тебя RoPE(x,m) = x * exp(m*i*eps) То есть абсолютная информация кодируется на каждом слое за счет ротари, ну и в процессе self-attention кодируется и относительная А ванильные не добавляют теперь да, в современных LLM

0

28.09.2023

Тимофей Смирнов · Accepted Answer

Тимофей Смирнов

Кажется сейчас все используют только rotary, признанная сота Синусоидные позицоннные кажется уже все выпилили и оставили только ротари, их вполне достаточно так как в каждом слое они задействуются

0

28.09.2023

170 похожих чатов

Всем привет Подскажите, пожалуйста Изучаю возможные улучшения трансформеров, дошел до rotary embeddings.

3 ответов

Похожие вопросы