170 похожих чатов

У меня вопрос про трансформеры. А точнее, про одну из

возможных архитектур decoder-only с предсказанием следующего токена.
Я правильно понимаю, что если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?
То есть, геометрически, берутся pre-trained embeddings токенов, добавляется информация о позиции, каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы близкие слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее? Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? (Попробовали, и хорошо работает?)
Дальше укладываем в ряд новые эмбеддинги токенов и даём полносвязной сетке на них взглянуть и выдать софтмакс следующего токена? Везде по-разному этот шаг инференса называется и описывается, поэтому хочу уточнить тоже. Или как там полносвязная сетка на последних шагах работает?

10 ответов

43 просмотра

Может быть это поможет https://nn.labml.ai/transformers/mha.html

Alejandro- Автор вопроса
Kirill
Может быть это поможет https://nn.labml.ai/transfo...

Да, я там не вижу полносвязной сетки, но вижу софтмакс

- “Если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?”. В самом внимании нет, но после слияния голов - конечно есть. - “берутся pre-trained embeddings токенов” - нет - “каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы related слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее” - какая-то хрень написана. - "Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? “ - повторяется связка MHA + LayerNorm + MLP

Alejandro- Автор вопроса
Ilya Gusev
- “Если используется scaled dot-product attention,...

Понял. MLP после слияния голов это хорошо, а то картинки запутывающие.

Alejandro
Понял. MLP после слияния голов это хорошо, а то ка...

нет, линейный слой после слияния голов. и потом еще MLP из двух линейных слоев

Alejandro- Автор вопроса

Можно подробней, а то я ещё с терминологией не до конца разобрался. Везде это по-разному называется

Alejandro- Автор вопроса
Ilya Gusev
нет, линейный слой после слияния голов. и потом ещ...

А, понял, там не нужен лишний mlp в конце, да

Alejandro
Можно подробней, а то я ещё с терминологией не до ...

в the illustrated transformer http://jalammar.github.io/illustrated-transformer/ неплохо описано зачем так делать в главе "The Beast With Many Heads"

Alejandro- Автор вопроса
Futorio Franklin
в the illustrated transformer http://jalammar.gith...

Здесь написано, что там просто полносвязная сеть

Похожие вопросы

Обсуждают сегодня

30500 за редактор? )
Владимир
47
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
1
Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
~ 2m21s  nix shell github:nixos/nixpkgs#stack ~  stack ghc -- --version error: … while calling the 'derivationStrict' builtin at /builtin/derivation.nix:...
Rebuild your mind.
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Карта сайта