Привет! Кто знает, существует ли подобный этому leaderboard для русскоязычных embeddings?

Если ты предложишь несколько новых энкодеров (только готовые рецепты и уже кем-то публично описанные, а не просто чьи-то свежие идеи), я буду рад их в лидерборд добавить 🙃

0

11.08.2023

datascience xc

David Dalé
Если ты предложишь несколько новых энкодеров (толь...

E5?

0

11.08.2023

David Dalé

datascience xc
E5?

А это разве энкодер предложений? Мне казалось, это seq2seq модель, в которой ни в один момент нет fixed-sized эмбеддинга предложения. Так что я не думаю, что она будет перформить сильно лучше других T5-подобных моделей, но раз есть запрос - добавлю)

0

11.08.2023

datascience xc

E5 это энкодер. На самом деле это xlm-roberta

0

11.08.2023

Данил Астафуров

в статье вроде про берт писали

0

11.08.2023

datascience xc

Данил Астафуров
в статье вроде про берт писали

0

11.08.2023

David Dalé

datascience xc
E5 это энкодер. На самом деле это xlm-roberta

А, прощу прощения. Я перепутал с UMT5)

0

11.08.2023

David Dalé

datascience xc
E5?

Принимаются ещё заказы)

0

11.08.2023

datascience xc

David Dalé
Принимаются ещё заказы)

От deepvk есть модели

0

11.08.2023

datascience xc

David Dalé
Принимаются ещё заказы)

Пытался ещё Е5 дистиллировать в rubert-tiny2, но по результатам мтеб стало хуже

0

11.08.2023

David Dalé

datascience xc
От deepvk есть модели

Ок, добавлю их деберту (вроде самая лучшая из всех) https://huggingface.co/deepvk/deberta-v1-base

0

11.08.2023

datascience xc

datascience xc
Пытался ещё Е5 дистиллировать в rubert-tiny2, но п...

Могу дать веса ради эксперимента

0

11.08.2023

David Dalé

datascience xc
Пытался ещё Е5 дистиллировать в rubert-tiny2, но п...

А на каком языке ты дистиллировал? MTEB вроде на английском, а у rubert-tiny2 он очень посредственный.

0

11.08.2023

datascience xc

David Dalé
А на каком языке ты дистиллировал? MTEB вроде на а...

На русском. И у MTEB есть русские таски (классификация интентов и sts22

0

11.08.2023

Mikhail Tikhomirov

David Dalé
А на каком языке ты дистиллировал? MTEB вроде на а...

Формально же в MTEB 100+ языков, только не на всех тасках, конечно

0

11.08.2023

miteigi nemoto

Такой не? https://russiansuperglue.com/ru/leaderboard/2

0

11.08.2023

David Dalé

datascience xc
E5?

Добавил E5 в лидерборд энкодеров предложений, и она его порвала) Спасибо за рекомендацию! И ещё спасибо @dealer_ai, что заметил баг в расчете эмбеддингов для ряда моделей, который я заодно наконец-то исправил.

0

11.08.2023

miteigi nemoto

David Dalé
Добавил E5 в лидерборд энкодеров предложений, и он...

А модели типа Llama могут выступать в качестве энкодеров?

0

12.08.2023

Terа́Spа́ce Stories: 10^12 Space |🥴🤗|

miteigi nemoto
А модели типа Llama могут выступать в качестве энк...

лам это из семейства гпт, они дэкодерные

0

12.08.2023