170 похожих чатов

А если, например, в главе предложение длинное, предположим из 20

слов, а то, которое искать из 3. Этот подход будет работать?

8 ответов

14 просмотров

Если они про одно и тоже в принципе, то да. Это ж эмбединги )

ssv- Автор вопроса
Konstantin Galagan
Если они про одно и тоже в принципе, то да. Это ж ...

А с помощью чего их лучше получать? Есть SOTA в этой области?

ну надо сначала для себя определить критерии похожести / не похожести. меня недавно например попросили дать некий тул для поиска дубликаций NER аннотаций, где точно также не все exact по некоторым причинам оказалось, а искать in не годится, много аннотаций сделанных разными пользователями, у одних из пользователей есть дубли в разных срезах (например по url). я сделал довольно простой пайплайн здесь - https://github.com/imvladikon/annotations_deduplications , который вообще никаких векторов не использует. если три слова надо искать в 20 и речь про лексическое сходство, я б вообще рекомендовал tf-idf/bm25.

ssv
Спасибо!) Посмотрю

ну мой pipeline он больше скажем про кластеризацию (т.е. похоже на дедупликацию, т.е. нужно найти вообще все похожие аннотации), если вам нужно просто первый хит найти, но можно либо как выше совершенно верно написали векторами, либо tf-idf (мой нот просто про то что , если речь про лексическое сходство, tf-idf сильно проще запустить и решить данную задачу)

ssv- Автор вопроса
᠌Vladimir Gurevich
ну мой pipeline он больше скажем про кластеризацию...

это вопрос больше для question answering, на больших текстах плохо работает, есть идея разбивать на более мелкие чанки и искать их похожесть на вопрос, а затем передавать в сетку для генерации ответа

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта