170 похожих чатов

Нужно найти в куче нормативных документов инфу соответствующую запросам на

естественном языке, запрос может как повторять фразы из документа, так и звучать иначе. Норм ли варик использовать берт? Переводить в эмбединг бертом запрос, затем также каждое предложение в каждом доке и смотреть косинусное расстояние между предложением и запросом?

10 ответов

29 просмотров

еще можно сперва нагенерить вопросов по документу с помощью LLM, и их как индекс использовать и искать уже и по ним. Правда на практике не пробовал

Renat
еще можно сперва нагенерить вопросов по документу ...

Можно, наоборот, нагенерить поисковых запросов LLMкой на базе исходного запроса (LLM будет знать, как интерпретировать запрос пользователя в язык документов). И потом искать similarity по ним.

Ilya Abramchuk- Автор вопроса
Rinat Abdullin
Можно, наоборот, нагенерить поисковых запросов LLM...

Зкбавный способ, но прикольно) а какая нынче модель лучшие эмбеддинги для русского языка создаёт?

Ilya Abramchuk- Автор вопроса
Renat
Вроде e5 хвалят

А она не только англ?

Ilya Abramchuk
А она не только англ?

https://huggingface.co/intfloat/multilingual-e5-large

Ilya Abramchuk- Автор вопроса
Renat
https://huggingface.co/intfloat/multilingual-e5-la...

А, понял, спасиб, потещу) вообще хотел попробовать православный rubert, не смотрел его?

Ilya Abramchuk
А, понял, спасиб, потещу) вообще хотел попробовать...

они похуже вроде перформят, хотя rubert-tiny-v2 вполне неплох ввиду малого размера. Тут и автор в чате есть даже

Ilya Abramchuk
Зкбавный способ, но прикольно) а какая нынче модел...

Я думаю вам нужно отталкиваться от конечной задачи. Это ж для STS? Воть рейтинг для русского языка полезный https://github.com/avidale/encodechka тут можно сравнить разные модели

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта