170 похожих чатов

Привет! Кто знает, существует ли подобный этому leaderboard для русскоязычных embeddings?

27 ответов

20 просмотров

https://github.com/avidale/encodechka

Alexander
Немножко устарело)

что то есть новее?

Alexander
Немножко устарело)

Если ты предложишь несколько новых энкодеров (только готовые рецепты и уже кем-то публично описанные, а не просто чьи-то свежие идеи), я буду рад их в лидерборд добавить 🙃

datascience xc
E5?

А это разве энкодер предложений? Мне казалось, это seq2seq модель, в которой ни в один момент нет fixed-sized эмбеддинга предложения. Так что я не думаю, что она будет перформить сильно лучше других T5-подобных моделей, но раз есть запрос - добавлю)

E5 это энкодер. На самом деле это xlm-roberta

в статье вроде про берт писали

datascience xc
E5 это энкодер. На самом деле это xlm-roberta

А, прощу прощения. Я перепутал с UMT5)

datascience xc
E5?

Принимаются ещё заказы)

David Dalé
Принимаются ещё заказы)

Пытался ещё Е5 дистиллировать в rubert-tiny2, но по результатам мтеб стало хуже

datascience xc
От deepvk есть модели

Ок, добавлю их деберту (вроде самая лучшая из всех) https://huggingface.co/deepvk/deberta-v1-base

datascience xc
Пытался ещё Е5 дистиллировать в rubert-tiny2, но п...

А на каком языке ты дистиллировал? MTEB вроде на английском, а у rubert-tiny2 он очень посредственный.

David Dalé
А на каком языке ты дистиллировал? MTEB вроде на а...

На русском. И у MTEB есть русские таски (классификация интентов и sts22

David Dalé
А на каком языке ты дистиллировал? MTEB вроде на а...

Формально же в MTEB 100+ языков, только не на всех тасках, конечно

Такой не? https://russiansuperglue.com/ru/leaderboard/2

datascience xc
E5?

Добавил E5 в лидерборд энкодеров предложений, и она его порвала) Спасибо за рекомендацию! И ещё спасибо @dealer_ai, что заметил баг в расчете эмбеддингов для ряда моделей, который я заодно наконец-то исправил.

David Dalé
Добавил E5 в лидерборд энкодеров предложений, и он...

А модели типа Llama могут выступать в качестве энкодеров?

miteigi nemoto
А модели типа Llama могут выступать в качестве энк...

Можно, но не нужно. И они могут выступать только для эмбеддингов

David Dalé
Добавил E5 в лидерборд энкодеров предложений, и он...

Можно добавить на 4к модель 'efederici/e5-base-multilingual-4096' #STS 0.83 Para 0.70 XNLI 0.45 Senti - 0.79 Toxi - 0.96 inap_task - 0.78

Похожие вопросы

Обсуждают сегодня

А как старый хаскел с новым стыковать ? потому как тут работает https://play.haskell.org/saved/C3xpMzcd, а вот тут https://stepik.org/lesson/7602/step/9?unit=1473 нет ошибка C...
Fedor
131
что насчет пагинга? на осдеве непонятно(
Vi Chapmann 🪙
26
Вопрос я правильно понимаю что в коде newtype ArrowMap k v = ArrowMap { getArrowMap :: k -> Maybe v } getArrowMap есть функция типа k -> Maybe v, если да, то не понимаю задач...
Fedor
64
Ребят, что лучше для реверса: гидра или ида?
En Vind Av Sorg
26
Делаю велосипед логгер. К сообщению хочу прикрутить некоторую информацию, типа, кем отправлено, какой уровень, и всякое такое. И тут подумалось мне, почему бы не хранить весь...
Serjone
24
Как Вы считаете нормально ли в двадцатых годах 21 века в ВУЗах Российской Федерации обучать студентов работе с TASM? Не слишком ли это "архаично"? (Если оффтоп или флейм для э...
Spiker01
52
Комрады, хотел уточнить. Проперть в OnDestroy юнита-хозяина по-прежнему доступна? И еще уточнение: finalization юнита наступает раньше или позже OnDestroy?
Ed Doc
48
если загрузчик efi? если сама PML4 PDPT PDT PT лежит в неудобном для меня месте?
Vi Chapmann 🪙
8
Продолжая диалог про свифт в проде – сейчас возник вопрос в активном наборе бекендеров. В основном в нашей компании мы фанаты Java Spring и полностью ей довольны. Однако найм ...
Guseyn
27
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Карта сайта