какую другую модель для длинных текстов обученную на русском корпусе? Или хотя бы мультиязычную?
Значит, нужен энкодер) Попробуй https://huggingface.co/cointegrated/rubert-tiny2. Я её в явном виде не обучал энкодить длинные тексты в вектор, но для предложений она прям хорошие эмбеддинги выдаёт, а на длинных текстах неплохо может в MLM. Поэтому, думаю, и на длинных текстах она схожесть худо-бедно сможет оценивать. Хотя в моём личном опыте для длинных текстов и bag of words позволяет сходство оценивать неплохо.
Обсуждают сегодня