слов, а то, которое искать из 3. Этот подход будет работать?
Если они про одно и тоже в принципе, то да. Это ж эмбединги )
А с помощью чего их лучше получать? Есть SOTA в этой области?
E5, distiluse-multilingual-v1
ну надо сначала для себя определить критерии похожести / не похожести. меня недавно например попросили дать некий тул для поиска дубликаций NER аннотаций, где точно также не все exact по некоторым причинам оказалось, а искать in не годится, много аннотаций сделанных разными пользователями, у одних из пользователей есть дубли в разных срезах (например по url). я сделал довольно простой пайплайн здесь - https://github.com/imvladikon/annotations_deduplications , который вообще никаких векторов не использует. если три слова надо искать в 20 и речь про лексическое сходство, я б вообще рекомендовал tf-idf/bm25.
Спасибо!) Посмотрю
ну мой pipeline он больше скажем про кластеризацию (т.е. похоже на дедупликацию, т.е. нужно найти вообще все похожие аннотации), если вам нужно просто первый хит найти, но можно либо как выше совершенно верно написали векторами, либо tf-idf (мой нот просто про то что , если речь про лексическое сходство, tf-idf сильно проще запустить и решить данную задачу)
это вопрос больше для question answering, на больших текстах плохо работает, есть идея разбивать на более мелкие чанки и искать их похожесть на вопрос, а затем передавать в сетку для генерации ответа
вэлкам - https://t.me/llm_driven_products
Обсуждают сегодня