>Мы инферим все токены декодера при каждом шаге имеется в виду

что к текущему токену аттендятся все предыдущие? ведь на самом деле эмбеды предшествующих токенов не пересчитываются

2 ответов

29 просмотров

Вообще я сейчас задумался, может быть фигню сказал

See-All Автор вопроса
Vlad Lialin
Вообще я сейчас задумался, может быть фигню сказал

не, это правда, что для i-го токена мы считаем i-1 связь с предыдущими (+1 на себя), но мы же не пересчитываем прям те эмбеддинги, давно делают кеширование, это ваще гениальная вещь

Похожие вопросы

Карта сайта