170 похожих чатов

Ещё раз попробую. После декодера у нас финальные эмбеддинги. Они

потом на что-то умножаются, потом идёт софтмакс. На что они умножаются?

7 ответов

16 просмотров

зачем softmax?

на что-то умножаются это линейный слой

Alejandro- Автор вопроса
Temirlan
на что-то умножаются это линейный слой

Интересный ответ. — На что умножаются? — На что-то умножаются.

Декодера у нас параллельно несколько голов, каждая выдает какой-то вектор Мы все эти вектора конкатенируем и перед подачей в финальный слой сжимаем-разжимаем линейными слоями (или одним просто трансформируем) Умножается этот вектор на веса линейного слоя, какие он там выучил. Ему виднее на что умножать. Если мы до софтмакса достанем результаты такого умножения, этот будут эмбеддинги текста. Если пропустим через софтмакс это будет "наиболее вероятный следующий (или маскированный) токен"

Alejandro
Интересный ответ. — На что умножаются? — На что-то...

Ну на веса линейного слоя же, это очень адекватный ответ. Реально на что-то они умножаются. На какие именно циферки мы не знаем, какие линейный слой выучил, на такие и умножаем.

Alejandro
Интересный ответ. — На что умножаются? — На что-то...

на всякий случай - под "что-то" там подразумеваются случайно инициализированный линейный слой, обученный бэкпропом

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта