коде, но ленюсь, для формирования аутпута декодера (который потом в распределение по словарю превращается для предсказания следующего токена) используется итоговый эмбеддинг последнего токена во входной последовательности?
Если я правильно понял вопрос, то обычно да. В 6-слойной gpt-подобной модели все вычисление можно представить так: distribution_over_tokens=softmax(linear(transformer_6(transformer_5(...transformer_1(embedding(input_token_ids))...)))) где transfromer_i = это блок из masked self-attention и dense модулей с residual connection.
вопрос на самом деле можно переформулировать в: как трансформер переходит от variable-length инпута к фиксированной длины аутпуту в виде чего-то размерности словаря
Обсуждают сегодня