декодер в трансформере. Вот мы взяли такие предложение и переводим его. Взяли первое слово, перевели, засунули его в маску, перевели второе - в маску и т.д.
А как так получается, что не портится все предложение из-за первого неверно переведенного?
Потому что ты бим-серч делаешь, выбираешь наиболее вероятную последовательность, смотришь как бы наперед немного ты не можешь неправильно выбрать первое слово и сломать все потом, потому что у тебя своебразный аллайнмент есть во-первых с исходной последовательностью (енкодер-декодер аттеншен), а во вторых ты не ориентируешься четко на то, что предсказал с наибольшей вероятностью, а смотришь на возможные варианты (бим-серч) + при обучении например ты знаешь всю последовательность реальную - тут такой проблемы точно нет и норм учится языковая модель (за счет того, что в декодере маскед селф аттеншен, то есть ты смотришь на настоящую последовательность и максимизируешь ее вероятность)
Обсуждают сегодня