возможных архитектур decoder-only с предсказанием следующего токена.
Я правильно понимаю, что если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?
То есть, геометрически, берутся pre-trained embeddings токенов, добавляется информация о позиции, каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы близкие слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее? Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? (Попробовали, и хорошо работает?)
Дальше укладываем в ряд новые эмбеддинги токенов и даём полносвязной сетке на них взглянуть и выдать софтмакс следующего токена? Везде по-разному этот шаг инференса называется и описывается, поэтому хочу уточнить тоже. Или как там полносвязная сетка на последних шагах работает?
Может быть это поможет https://nn.labml.ai/transformers/mha.html
Да, я там не вижу полносвязной сетки, но вижу софтмакс
- “Если используется scaled dot-product attention, то в блоке attention нет полносвязного слоя? Только softmax?”. В самом внимании нет, но после слияния голов - конечно есть. - “берутся pre-trained embeddings токенов” - нет - “каждая из голов в multi-headed attention пробует линейное преобразование этих эмбеддингов, чтобы related слова стали ближе, дальние слова стали дальше, а потом из этих преобразований берётся лучшее” - какая-то хрень написана. - "Это повторяется сколько-то раз, и мы таким образом получаем из pre-trained embeddings такие, которые этими простыми средствами учитывают контекст? “ - повторяется связка MHA + LayerNorm + MLP
Понял. MLP после слияния голов это хорошо, а то картинки запутывающие.
нет, линейный слой после слияния голов. и потом еще MLP из двух линейных слоев
Можно подробней, а то я ещё с терминологией не до конца разобрался. Везде это по-разному называется
ну так разберитесь
А, понял, там не нужен лишний mlp в конце, да
в the illustrated transformer http://jalammar.github.io/illustrated-transformer/ неплохо описано зачем так делать в главе "The Beast With Many Heads"
Здесь написано, что там просто полносвязная сеть
Обсуждают сегодня