потом на что-то умножаются, потом идёт софтмакс. На что они умножаются?
зачем softmax?
на что-то умножаются это линейный слой
Интересный ответ. — На что умножаются? — На что-то умножаются.
Декодера у нас параллельно несколько голов, каждая выдает какой-то вектор Мы все эти вектора конкатенируем и перед подачей в финальный слой сжимаем-разжимаем линейными слоями (или одним просто трансформируем) Умножается этот вектор на веса линейного слоя, какие он там выучил. Ему виднее на что умножать. Если мы до софтмакса достанем результаты такого умножения, этот будут эмбеддинги текста. Если пропустим через софтмакс это будет "наиболее вероятный следующий (или маскированный) токен"
я же вам уже дважды ответил)
Ну на веса линейного слоя же, это очень адекватный ответ. Реально на что-то они умножаются. На какие именно циферки мы не знаем, какие линейный слой выучил, на такие и умножаем.
на всякий случай - под "что-то" там подразумеваются случайно инициализированный линейный слой, обученный бэкпропом
Обсуждают сегодня