Нужно найти в куче нормативных документов инфу соответствующую запросам на

Question

Нужно найти в куче нормативных документов инфу соответствующую запросам на

естественном языке, запрос может как повторять фразы из документа, так и звучать иначе. Норм ли варик использовать берт? Переводить в эмбединг бертом запрос, затем также каждое предложение в каждом доке и смотреть косинусное расстояние между предложением и запросом?

#nlp #programming #russian

0

14.11.2023

10 ответов

29 просмотров

Rinat Abdullin

Renat
еще можно сперва нагенерить вопросов по документу ...

Можно, наоборот, нагенерить поисковых запросов LLMкой на базе исходного запроса (LLM будет знать, как интерпретировать запрос пользователя в язык документов). И потом искать similarity по ним.

0

14.11.2023

Ilya Abramchuk Автор вопроса

Rinat Abdullin
Можно, наоборот, нагенерить поисковых запросов LLM...

Зкбавный способ, но прикольно) а какая нынче модель лучшие эмбеддинги для русского языка создаёт?

0

14.11.2023

Renat

Ilya Abramchuk
Зкбавный способ, но прикольно) а какая нынче модел...

Вроде e5 хвалят

0

14.11.2023

Ilya Abramchuk Автор вопроса

Renat
Вроде e5 хвалят

А она не только англ?

0

14.11.2023

Renat

Ilya Abramchuk
А она не только англ?

https://huggingface.co/intfloat/multilingual-e5-large

0

14.11.2023

Ilya Abramchuk Автор вопроса

Renat
https://huggingface.co/intfloat/multilingual-e5-la...

А, понял, спасиб, потещу) вообще хотел попробовать православный rubert, не смотрел его?

0

14.11.2023

Renat

Ilya Abramchuk
А, понял, спасиб, потещу) вообще хотел попробовать...

они похуже вроде перформят, хотя rubert-tiny-v2 вполне неплох ввиду малого размера. Тут и автор в чате есть даже

0

14.11.2023

Артем

Ilya Abramchuk
Зкбавный способ, но прикольно) а какая нынче модел...

Я думаю вам нужно отталкиваться от конечной задачи. Это ж для STS? Воть рейтинг для русского языка полезный https://github.com/avidale/encodechka тут можно сравнить разные модели

0

14.11.2023

Ilya Abramchuk Автор вопроса

Артем
Я думаю вам нужно отталкиваться от конечной задачи...

Да, sts. Спасибо за инфу

0

14.11.2023

Renat · Accepted Answer

Renat

еще можно сперва нагенерить вопросов по документу с помощью LLM, и их как индекс использовать и искать уже и по ним. Правда на практике не пробовал

0

14.11.2023

170 похожих чатов

Нужно найти в куче нормативных документов инфу соответствующую запросам на

10 ответов

Похожие вопросы