Всем привет! Подскажите, пожалуйста, для поиска использую e5 с векторами

Question

Всем привет! Подскажите, пожалуйста, для поиска использую e5 с векторами

1024 float32
Качество поиска фича similarity между запросом и документом супер растит, но соответственно векторы довольно большие выходят. Подумал о квантизации e5 в int8, но пока не тестил. Подскажите, пожалуйста, может кто-нибудь сталкивался. Лучше взять квантованную сильную модельку либо маленькую неквантованную. Скажем multilingual e5 против rubert-tiny-2 как будут работать по качеству? Сильно ли оно просядет при квантизации e5 в int8 и сильнее ли, чем выдают более слабые модельки?

#nlp #programming #russian

0

05.10.2023

21 ответов

98 просмотров

Ростислав Корст Автор вопроса

А новые векторы, то есть как только запрос пришёл и мы его векторизовали, можно проскорить обученным pca быстро?

0

05.10.2023

Ilya Gusev

Ростислав Корст
А новые векторы, то есть как только запрос пришёл ...

ну да

0

05.10.2023

Ростислав Корст Автор вопроса

Ilya Gusev
ну да

Дефолтным pca из sklearn?)

0

05.10.2023

Ilya Gusev

Ростислав Корст
Дефолтным pca из sklearn?)

да хоть бы и так

0

05.10.2023

David Dalé

Ростислав Корст
Дефолтным pca из sklearn?)

Если у вас есть обучающие данные (тысячи пар запрос+релевантный документ), то как вариант, можно вместо PCA (который полностью unsupervised) обучить supervised сжималку нужной вам размерности (один линейный слой, прицепленный поверх замороженной E5), которая бы оптимизировала, скажем, MultipleNegativesRankingLoss косинусной близости всех пар запрос-документ в батче. У меня похожая штука хорошо работала в несколько другой задаче (но тоже на сравнение векторов).

0

05.10.2023

David Dalé

А вообще, из текста вопроса не 100% понятно, какую именно проблему вы пытаетесь решить: размер эмбеддингов, из которых вы делаете поисковый индекс (и тогда есть смысл их жать разными способами) или размер модели, эти эмбеддинги извлекающей (ибо rubert-tiny-2 делалась как раз ради того, чтобы сам энкодер был маленький).

0

05.10.2023

Ростислав Корст Автор вопроса

David Dalé
А вообще, из текста вопроса не 100% понятно, какую...

С временем инференса особо проблемы нет, а вот с размером векторов есть. Векторный поиск пока не делал, кандидаты вбрасываются эластиком а косинусная близость подаётся в бустинг как фича. И вот перенос векторов по сети из базы в сервис ранжирования выполняется очень долго из-за того, что кандидатов много, и векторы весят много. Большие издержки на перенос по сети. Поэтому есть задача, не утратив качество фичи сходства уменьшить размер векторов, между которыми будет считаться сходство.

0

05.10.2023

Ростислав Корст Автор вопроса

David Dalé
Если у вас есть обучающие данные (тысячи пар запро...

С твоей точки зрения это будет работать лучше, чем PCA?

0

05.10.2023

David Dalé

Ростислав Корст
С твоей точки зрения это будет работать лучше, чем...

С моей точки зрения, это может работать лучше, чем PCA, если повезёт. Ну и в целом, когда есть достаточно много размеченных данных, обычно supervised методы работают лучше, чем unsupervised.

0

05.10.2023

Ростислав Корст Автор вопроса

David Dalé
С моей точки зрения, это может работать лучше, чем...

Спасибо!

0

05.10.2023

miteigi nemoto

Векторы большие это вы про постоянные симиляри 0.8 и разница в сотых между результатами?

0

05.10.2023

David Dalé

Ростислав Корст
С временем инференса особо проблемы нет, а вот с р...

Если основная проблема - с перегоном векторов по сети, то можно сделать product quantisation, когда каждый фрагмент вектора заменяется на id наиболее похожего фрагмента из словаря. Если, допустим, брать фрагменты длины 16 и кодировать их в uint16, (то есть словарь до размера 2^16), то 1024-мерный вектор можно описать 64 такими айдишками. Если словарь очень большой, то такое сжатие будет весьма точным. А размер словаря в вашем случае может быть большим, ибо его-то по сети гонять не надо.

0

05.10.2023

Ростислав Корст Автор вопроса

Есть ли готовые реализации такого? Звучит интересно

0

05.10.2023

Ростислав Корст Автор вопроса

miteigi nemoto
Векторы большие это вы про постоянные симиляри 0.8...

Шапы и фича импортанс этих симилярити в топе относительно других и не такие уж они и константные. У меня в поиске мб несколько релевантных доков. Важно их наверх отранжировать, поэтому мб не так критично

0

05.10.2023

miteigi nemoto

Ростислав Корст
Шапы и фича импортанс этих симилярити в топе относ...

Для е5 надо по формуле симилярити скоре считать, иначе все результаты будут около 0.8. https://t.me/natural_language_processing/71739

0

05.10.2023

Anton

miteigi nemoto
Для е5 надо по формуле симилярити скоре считать, и...

Интересно, как вы эту формулу вывели? Чисто интуитивно?

0

05.10.2023