как енкодер текста? Если да, то как файнтюнили/насколько разнились метрики?
Такой подход описан в гугловской статье EncT5 https://arxiv.org/pdf/2110.08426.pdf
И есть еще вот такая имплементация его https://github.com/monologg/EncT5
А, там декодинг через кросс атеншн
Я может не туда смотрю, но в этой имплементации просто накинули линейный слой поверх энкодера.
Увы, имплементация неофициальная
Обсуждают сегодня