какая из локальных моделей наиболее хороша для получения мультиязычных эмбеддингов по соотношению скорость/качество? Особенно интересуют языки: русский, английский и китайский, 2) Существуют ли автоматизированные средства для оценки качества эмбеддингов (в плане адекватности текст симилярити)? 🙏
А что понимать под качеством эмбеддингов в общем? Качество в контексте какой-то задачи еще понятно.
В этой статье предлагают оценивать качество эмбеддингов исходя из их ожидаемых свойств: близости позитивных пар друг к другу и равномерное распределение эмбеддингов на сфере. Кажется разумным подходом. Показывают даже, что если оптимизировать эти метрики (которые они формулируют как лоссы) напрямую - качество на конкретных задачах тоже оказывается адекватным. http://proceedings.mlr.press/v119/wang20k/wang20k.pdf
К первому свойству вопросов нет, но второе кажется вообще необязательным для хороших эмбеддингов, ибо они вполне могут занимать маленькое подпространство от единичной сферы, но при этом отлично решать все downstream задачи. Поэтому более честным мне кажется просто измерять, насколько близость эмбеддингов позволяет отличить положительные пары от отрицательных.
Интуитивно и практически согласен. Второе свойство оказывается полезным, если мы напрямую оптимизируем эти метрики, т.к. на дает модели хакать первую метрику (сводить все точки в одно место). В случае обучения с обычными (контрастивными) лоссами эта проблема решается самими лоссами (+ марджинами).
Ну я же написал, что сходство текстов. То есть, чем более адекватно косинусное расстояние между эмбеддингами семантической близости - тем более качественны эмбеддинги 🤷♀️ ну я так вижу
Степень сходства двух текстов определяется задачей.
Ну вот как по мне- кусок кода на с++ совсем не похож на стихи Пушкина вне зависимости от задачи 🤷♀️
Цифры тоже не похожи на стихи, однако. Так-что тут всё зависит от задачи, как правильно говорит Юрий
Нашёл ещё вот такое https://code-poetry.com/water
Обсуждают сегодня