https://github.com/avidale/encodechka
Немножко устарело)
что то есть новее?
Если ты предложишь несколько новых энкодеров (только готовые рецепты и уже кем-то публично описанные, а не просто чьи-то свежие идеи), я буду рад их в лидерборд добавить 🙃
А это разве энкодер предложений? Мне казалось, это seq2seq модель, в которой ни в один момент нет fixed-sized эмбеддинга предложения. Так что я не думаю, что она будет перформить сильно лучше других T5-подобных моделей, но раз есть запрос - добавлю)
E5 это энкодер. На самом деле это xlm-roberta
в статье вроде про берт писали
А, прощу прощения. Я перепутал с UMT5)
Принимаются ещё заказы)
От deepvk есть модели
Пытался ещё Е5 дистиллировать в rubert-tiny2, но по результатам мтеб стало хуже
Ок, добавлю их деберту (вроде самая лучшая из всех) https://huggingface.co/deepvk/deberta-v1-base
Могу дать веса ради эксперимента
А на каком языке ты дистиллировал? MTEB вроде на английском, а у rubert-tiny2 он очень посредственный.
На русском. И у MTEB есть русские таски (классификация интентов и sts22
Формально же в MTEB 100+ языков, только не на всех тасках, конечно
Такой не? https://russiansuperglue.com/ru/leaderboard/2
Добавил E5 в лидерборд энкодеров предложений, и она его порвала) Спасибо за рекомендацию! И ещё спасибо @dealer_ai, что заметил баг в расчете эмбеддингов для ряда моделей, который я заодно наконец-то исправил.
А модели типа Llama могут выступать в качестве энкодеров?
лам это из семейства гпт, они дэкодерные
Можно, но не нужно. И они могут выступать только для эмбеддингов
она не может быть энкодером
Можно добавить на 4к модель 'efederici/e5-base-multilingual-4096' #STS 0.83 Para 0.70 XNLI 0.45 Senti - 0.79 Toxi - 0.96 inap_task - 0.78
ох ты, как классно. Спасибо!
Обсуждают сегодня