Всем привет! Делаю поисковое ранжирование и в качестве текстовых фичей пихаю

Question

Всем привет! Делаю поисковое ранжирование и в качестве текстовых фичей пихаю

multilingual e5 для поискового запроса и для названия и описания объекта. В бустинг кладу по одному числу similarity и она показывает себя очень важной, что понятно. Однако размер вектора 1024 и моделька тяжелая и инференсится непозволительно долго для поиска (инференс на поисковом запросе выполняется в онлайне).
Есть ли возможность уменьшать вектор и ускорять инференс модели или нужно переходить на более мелкие модельки? Про onnx знаю, но только в теории.
Подскажите, пожалуйста, в какую сторону посмотреть, что почитать и какие-нибудь туторы.

#nlp #programming #russian

0

25.09.2023

8 ответов

10 просмотров

Антон Легченко

Можно сделать дистилляцию / прунинг / квантизацию на основе специфики данных модели чтобы ускорить инференс почти не теряя в качестве

0

8 месяцев назад

Ростислав Корст Автор вопроса

Антон Легченко
Можно сделать дистилляцию / прунинг / квантизацию ...

Есть ли какой-нибудь туториал, как это делать? Эти слова понимаю, но руками пока не делал)

0

8 месяцев назад

Антон Легченко

Ростислав Корст
Есть ли какой-нибудь туториал, как это делать? Эти...

В торче есть нативная квантизация и гайдики на сайте для разных ее типов, но из того что последним пользовался это gptq для llm

0

8 месяцев назад

Aleksei Kogai

Обычно 80%++ запросов - не уникальные и их вектора проще забирать с хеша предобученные, а не считать в онлайне

0

8 месяцев назад

Ruslan Ishtuganov

Антон Легченко
Можно сделать дистилляцию / прунинг / квантизацию ...

e5 же кстати есть запруненная, хочу ее в поиске попробовать

0

8 месяцев назад

Дима Балобин

Ростислав Корст
Есть ли какой-нибудь туториал, как это делать? Эти...

Для дистилляции можно начать отсюда (transformers репозитоий), код готовый для использования (m-e5 = XLMRoberta) и довольно понятный Для прунинга можно почитать в документации торча или использовать готовое коробочное решение (я через него быстро прунил multilingual-e5-large/base/small)

0

8 месяцев назад

Kate Sinkova

Aleksei Kogai
Обычно 80%++ запросов - не уникальные и их вектора...

А если и материалы в системе не часто обновляются, то теоретически можно и саму выдачу сохранять

0

8 месяцев назад

Антон Легченко · Accepted Answer

Антон Легченко

Можно уменьшить размерность векторов или тип данных

0

8 месяцев назад

170 похожих чатов

Всем привет! Делаю поисковое ранжирование и в качестве текстовых фичей пихаю

8 ответов

Похожие вопросы