1. Правильно ли я понял, что их используют не вместо синусоидальных эмбеддингов в энкодере и декодере, а в attention, добавляя к q и k?
2. Если да, используют ли для кодирования позиций токенов что-то кроме синусоидальных, или используют в основном rotary в attention и синусоидальные в энкодере и декодере?
Кажется сейчас все используют только rotary, признанная сота Синусоидные позицоннные кажется уже все выпилили и оставили только ротари, их вполне достаточно так как в каждом слое они задействуются
а для кодирования позиций токенов ничего не используется? их не добавляют теперь?
Ну так у тебя RoPE(x,m) = x * exp(m*i*eps) То есть абсолютная информация кодируется на каждом слое за счет ротари, ну и в процессе self-attention кодируется и относительная А ванильные не добавляют теперь да, в современных LLM
Обсуждают сегодня