170 похожих чатов

Камрады, я тут как тот вшивый о бане: 1) Таки

какая из локальных моделей наиболее хороша для получения мультиязычных эмбеддингов по соотношению скорость/качество? Особенно интересуют языки: русский, английский и китайский, 2) Существуют ли автоматизированные средства для оценки качества эмбеддингов (в плане адекватности текст симилярити)? 🙏

9 ответов

17 просмотров

А что понимать под качеством эмбеддингов в общем? Качество в контексте какой-то задачи еще понятно.

vpodgorsky
А что понимать под качеством эмбеддингов в общем? ...

В этой статье предлагают оценивать качество эмбеддингов исходя из их ожидаемых свойств: близости позитивных пар друг к другу и равномерное распределение эмбеддингов на сфере. Кажется разумным подходом. Показывают даже, что если оптимизировать эти метрики (которые они формулируют как лоссы) напрямую - качество на конкретных задачах тоже оказывается адекватным. http://proceedings.mlr.press/v119/wang20k/wang20k.pdf

Aleksiej
В этой статье предлагают оценивать качество эмбедд...

К первому свойству вопросов нет, но второе кажется вообще необязательным для хороших эмбеддингов, ибо они вполне могут занимать маленькое подпространство от единичной сферы, но при этом отлично решать все downstream задачи. Поэтому более честным мне кажется просто измерять, насколько близость эмбеддингов позволяет отличить положительные пары от отрицательных.

David Dalé
К первому свойству вопросов нет, но второе кажется...

Интуитивно и практически согласен. Второе свойство оказывается полезным, если мы напрямую оптимизируем эти метрики, т.к. на дает модели хакать первую метрику (сводить все точки в одно место). В случае обучения с обычными (контрастивными) лоссами эта проблема решается самими лоссами (+ марджинами).

vpodgorsky
А что понимать под качеством эмбеддингов в общем? ...

Ну я же написал, что сходство текстов. То есть, чем более адекватно косинусное расстояние между эмбеддингами семантической близости - тем более качественны эмбеддинги 🤷‍♀️ ну я так вижу

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Ну я же написал, что сходство текстов. То есть, че...

Степень сходства двух текстов определяется задачей.

Yuriy Nazarov
Степень сходства двух текстов определяется задачей...

Ну вот как по мне- кусок кода на с++ совсем не похож на стихи Пушкина вне зависимости от задачи 🤷‍♀️

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Ну вот как по мне- кусок кода на с++ совсем не пох...

Цифры тоже не похожи на стихи, однако. Так-что тут всё зависит от задачи, как правильно говорит Юрий

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта