У меня вопрос про трансформеры. А точнее, про одну из

Question

У меня вопрос про трансформеры. А точнее, про одну из

возможных архитектур decoder-only с предсказанием следующего токена.
Я правильно понимаю, что если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?
То есть, геометрически, берутся pre-trained embeddings токенов, добавляется информация о позиции, каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы близкие слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее? Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? (Попробовали, и хорошо работает?)
Дальше укладываем в ряд новые эмбеддинги токенов и даём полносвязной сетке на них взглянуть и выдать софтмакс следующего токена? Везде по-разному этот шаг инференса называется и описывается, поэтому хочу уточнить тоже. Или как там полносвязная сетка на последних шагах работает?

#nlp #programming #russian

0

23.10.2023

10 ответов

46 просмотров

Alejandro Автор вопроса

Kirill
Может быть это поможет https://nn.labml.ai/transfo...

Да, я там не вижу полносвязной сетки, но вижу софтмакс

0

23.10.2023

Ilya Gusev

- “Если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?”. В самом внимании нет, но после слияния голов - конечно есть. - “берутся pre-trained embeddings токенов” - нет - “каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы related слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее” - какая-то хрень написана. - "Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? “ - повторяется связка MHA + LayerNorm + MLP

0

23.10.2023

Alejandro Автор вопроса

Ilya Gusev
- “Если используется scaled dot-product attention,...

Понял. MLP после слияния голов это хорошо, а то картинки запутывающие.

0

23.10.2023

Ilya Gusev

Alejandro
Понял. MLP после слияния голов это хорошо, а то ка...

нет, линейный слой после слияния голов. и потом еще MLP из двух линейных слоев

0

23.10.2023