Камрады, я тут как тот вшивый о бане: 1) Таки

Question

Камрады, я тут как тот вшивый о бане: 1) Таки

какая из локальных моделей наиболее хороша для получения мультиязычных эмбеддингов по соотношению скорость/качество? Особенно интересуют языки: русский, английский и китайский, 2) Существуют ли автоматизированные средства для оценки качества эмбеддингов (в плане адекватности текст симилярити)? 🙏

#nlp #programming #russian

0

11.06.2023

9 ответов

34 просмотра

Aleksiej

vpodgorsky
А что понимать под качеством эмбеддингов в общем? ...

В этой статье предлагают оценивать качество эмбеддингов исходя из их ожидаемых свойств: близости позитивных пар друг к другу и равномерное распределение эмбеддингов на сфере. Кажется разумным подходом. Показывают даже, что если оптимизировать эти метрики (которые они формулируют как лоссы) напрямую - качество на конкретных задачах тоже оказывается адекватным. http://proceedings.mlr.press/v119/wang20k/wang20k.pdf

0

11.06.2023

David Dalé

Aleksiej
В этой статье предлагают оценивать качество эмбедд...

К первому свойству вопросов нет, но второе кажется вообще необязательным для хороших эмбеддингов, ибо они вполне могут занимать маленькое подпространство от единичной сферы, но при этом отлично решать все downstream задачи. Поэтому более честным мне кажется просто измерять, насколько близость эмбеддингов позволяет отличить положительные пары от отрицательных.

0

11.06.2023

Aleksiej

David Dalé
К первому свойству вопросов нет, но второе кажется...

Интуитивно и практически согласен. Второе свойство оказывается полезным, если мы напрямую оптимизируем эти метрики, т.к. на дает модели хакать первую метрику (сводить все точки в одно место). В случае обучения с обычными (контрастивными) лоссами эта проблема решается самими лоссами (+ марджинами).

0

11.06.2023

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru Автор вопроса

vpodgorsky
А что понимать под качеством эмбеддингов в общем? ...

Ну я же написал, что сходство текстов. То есть, чем более адекватно косинусное расстояние между эмбеддингами семантической близости - тем более качественны эмбеддинги 🤷‍♀️ ну я так вижу

0

11.06.2023

Yuriy Nazarov

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Ну я же написал, что сходство текстов. То есть, че...

Степень сходства двух текстов определяется задачей.

0

11.06.2023

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru Автор вопроса

Yuriy Nazarov
Степень сходства двух текстов определяется задачей...

Ну вот как по мне- кусок кода на с++ совсем не похож на стихи Пушкина вне зависимости от задачи 🤷‍♀️

0

11.06.2023