170 похожих чатов

У меня вопрос про трансформеры. А точнее, про одну из

возможных архитектур decoder-only с предсказанием следующего токена.
Я правильно понимаю, что если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?
То есть, геометрически, берутся pre-trained embeddings токенов, добавляется информация о позиции, каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы близкие слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее? Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? (Попробовали, и хорошо работает?)
Дальше укладываем в ряд новые эмбеддинги токенов и даём полносвязной сетке на них взглянуть и выдать софтмакс следующего токена? Везде по-разному этот шаг инференса называется и описывается, поэтому хочу уточнить тоже. Или как там полносвязная сетка на последних шагах работает?

10 ответов

46 просмотров

Может быть это поможет https://nn.labml.ai/transformers/mha.html

Alejandro- Автор вопроса
Kirill
Может быть это поможет https://nn.labml.ai/transfo...

Да, я там не вижу полносвязной сетки, но вижу софтмакс

- “Если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?”. В самом внимании нет, но после слияния голов - конечно есть. - “берутся pre-trained embeddings токенов” - нет - “каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы related слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее” - какая-то хрень написана. - "Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? “ - повторяется связка MHA + LayerNorm + MLP

Alejandro- Автор вопроса
Ilya Gusev
- “Если используется scaled dot-product attention,...

Понял. MLP после слияния голов это хорошо, а то картинки запутывающие.

Alejandro
Понял. MLP после слияния голов это хорошо, а то ка...

нет, линейный слой после слияния голов. и потом еще MLP из двух линейных слоев

Alejandro- Автор вопроса

Можно подробней, а то я ещё с терминологией не до конца разобрался. Везде это по-разному называется

Alejandro- Автор вопроса
Ilya Gusev
нет, линейный слой после слияния голов. и потом ещ...

А, понял, там не нужен лишний mlp в конце, да

Alejandro
Можно подробней, а то я ещё с терминологией не до ...

в the illustrated transformer http://jalammar.github.io/illustrated-transformer/ неплохо описано зачем так делать в главе "The Beast With Many Heads"

Alejandro- Автор вопроса
Futorio Franklin
в the illustrated transformer http://jalammar.gith...

Здесь написано, что там просто полносвязная сеть

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта