А если, например, в главе предложение длинное, предположим из 20

ну надо сначала для себя определить критерии похожести / не похожести. меня недавно например попросили дать некий тул для поиска дубликаций NER аннотаций, где точно также не все exact по некоторым причинам оказалось, а искать in не годится, много аннотаций сделанных разными пользователями, у одних из пользователей есть дубли в разных срезах (например по url). я сделал довольно простой пайплайн здесь - https://github.com/imvladikon/annotations_deduplications , который вообще никаких векторов не использует. если три слова надо искать в 20 и речь про лексическое сходство, я б вообще рекомендовал tf-idf/bm25.

0

09.08.2023

ssv Автор вопроса

᠌Vladimir Gurevich
ну надо сначала для себя определить критерии похож...

Спасибо!) Посмотрю

0

09.08.2023

᠌Vladimir Gurevich

ssv
Спасибо!) Посмотрю

ну мой pipeline он больше скажем про кластеризацию (т.е. похоже на дедупликацию, т.е. нужно найти вообще все похожие аннотации), если вам нужно просто первый хит найти, но можно либо как выше совершенно верно написали векторами, либо tf-idf (мой нот просто про то что , если речь про лексическое сходство, tf-idf сильно проще запустить и решить данную задачу)

0

09.08.2023

ssv Автор вопроса

᠌Vladimir Gurevich
ну мой pipeline он больше скажем про кластеризацию...

это вопрос больше для question answering, на больших текстах плохо работает, есть идея разбивать на более мелкие чанки и искать их похожесть на вопрос, а затем передавать в сетку для генерации ответа

0

09.08.2023

Konstantin Galagan

ssv
это вопрос больше для question answering, на больш...

вэлкам - https://t.me/llm_driven_products

0

09.08.2023

Konstantin Galagan · Accepted Answer

Konstantin Galagan

Если они про одно и тоже в принципе, то да. Это ж эмбединги )

0

09.08.2023

170 похожих чатов

А если, например, в главе предложение длинное, предположим из 20

8 ответов

Похожие вопросы