(то есть эмбеддинги), чтобы потом их подавать как фичи в модели второго уровня (классификаторы например), есть много данных, надо обучать на своём корпусе, соответственно мне нужно скрытое состояние, полученное с помощью encoder, decoder по идее не нужен, но чтобы обучить это скрытое состояние, полученное через encoder, мне нужно обучать весь трансформер (вместе с decoder), правильно?
Привет, неправильно. Есть большой класс моделей, которые состоит только из энкодера, декодера у них вообще нет. К таким моделям относятся например все BERT-like модели. Для BART/T5 нужно предобучать весь seq2seq, да.
То есть по факту я могу реализовать только encoder трансформера и обучать его, чтобы получить эмбеддинги, так?
Обсуждают сегодня