170 похожих чатов

Нужно найти в куче нормативных документов инфу соответствующую запросам на

естественном языке, запрос может как повторять фразы из документа, так и звучать иначе. Норм ли варик использовать берт? Переводить в эмбединг бертом запрос, затем также каждое предложение в каждом доке и смотреть косинусное расстояние между предложением и запросом?

10 ответов

22 просмотра

еще можно сперва нагенерить вопросов по документу с помощью LLM, и их как индекс использовать и искать уже и по ним. Правда на практике не пробовал

Renat
еще можно сперва нагенерить вопросов по документу ...

Можно, наоборот, нагенерить поисковых запросов LLMкой на базе исходного запроса (LLM будет знать, как интерпретировать запрос пользователя в язык документов). И потом искать similarity по ним.

Ilya Abramchuk- Автор вопроса
Rinat Abdullin
Можно, наоборот, нагенерить поисковых запросов LLM...

Зкбавный способ, но прикольно) а какая нынче модель лучшие эмбеддинги для русского языка создаёт?

Ilya Abramchuk- Автор вопроса
Renat
Вроде e5 хвалят

А она не только англ?

Ilya Abramchuk
А она не только англ?

https://huggingface.co/intfloat/multilingual-e5-large

Ilya Abramchuk- Автор вопроса
Renat
https://huggingface.co/intfloat/multilingual-e5-la...

А, понял, спасиб, потещу) вообще хотел попробовать православный rubert, не смотрел его?

Ilya Abramchuk
А, понял, спасиб, потещу) вообще хотел попробовать...

они похуже вроде перформят, хотя rubert-tiny-v2 вполне неплох ввиду малого размера. Тут и автор в чате есть даже

Ilya Abramchuk
Зкбавный способ, но прикольно) а какая нынче модел...

Я думаю вам нужно отталкиваться от конечной задачи. Это ж для STS? Воть рейтинг для русского языка полезный https://github.com/avidale/encodechka тут можно сравнить разные модели

Ilya Abramchuk- Автор вопроса

Похожие вопросы

Обсуждают сегодня

Какой-то там пердун в 90-х решил, что есть какая-то разная типизация. Кого вообще это волнует?
КТ315
49
void terminal_scroll() { memmove(terminal_buffer, terminal_buffer + VGA_WIDTH, buffer_size - VGA_WIDTH); memset(terminal_buffer + buffer_size - VGA_WIDTH, 0, VGA_WIDTH); ...
Егор
47
Всем привет! Подскажите, пожалуйста, в чем ошибка? Настраиваю подключение к MySQL. Либы лежат рядом с exe. Все как по "учебнику"
Евгений
16
А можете как-то проверить меня по знаниям по ассемблеру?
A A
132
Здравствуйте! У меня появилась возможность купить книгу "Изучай Haskell во имя добра!". Но я где-то слышал, что эта книга устарела. Насколько это правда??
E
22
Здравствуйте! Я вот на stepic решаю задачи на хаскеле https://stepik.org/lesson/8443/step/8?unit=1578 мой код import Data.List (isInfixOf) removing :: String -> [String] ->...
E
10
Камрады, кто тесно работал с vtv, хотел уточнить. Ширина column задаётся жёстко на этапе создания дерева или можно в рантайме ее менять программно (не мышкой)?
Ed Doc
10
да ладно ... что там неочевидного ? глянуть в исх-ки датасета и/или кверика чтобы понять в каком месте и как выполняется обращения к св-вам blablaSQL - минутное дело, даже е...
Сергей
7
Здесь для arm кто-нибудь кодит ?
Nothing
52
Всем привет, у меня есть сервер принимающий входящие HTTP подключения, как проверить, что подключение было через прокси или нет, есть какие то поля в заголовках по которым мо...
Кибер Бомж
8
Карта сайта