естественном языке, запрос может как повторять фразы из документа, так и звучать иначе. Норм ли варик использовать берт? Переводить в эмбединг бертом запрос, затем также каждое предложение в каждом доке и смотреть косинусное расстояние между предложением и запросом?
еще можно сперва нагенерить вопросов по документу с помощью LLM, и их как индекс использовать и искать уже и по ним. Правда на практике не пробовал
Можно, наоборот, нагенерить поисковых запросов LLMкой на базе исходного запроса (LLM будет знать, как интерпретировать запрос пользователя в язык документов). И потом искать similarity по ним.
Зкбавный способ, но прикольно) а какая нынче модель лучшие эмбеддинги для русского языка создаёт?
А она не только англ?
https://huggingface.co/intfloat/multilingual-e5-large
А, понял, спасиб, потещу) вообще хотел попробовать православный rubert, не смотрел его?
они похуже вроде перформят, хотя rubert-tiny-v2 вполне неплох ввиду малого размера. Тут и автор в чате есть даже
Я думаю вам нужно отталкиваться от конечной задачи. Это ж для STS? Воть рейтинг для русского языка полезный https://github.com/avidale/encodechka тут можно сравнить разные модели
Да, sts. Спасибо за инфу
Обсуждают сегодня