170 похожих чатов

А если, например, в главе предложение длинное, предположим из 20

слов, а то, которое искать из 3. Этот подход будет работать?

8 ответов

11 просмотров

Если они про одно и тоже в принципе, то да. Это ж эмбединги )

ssv- Автор вопроса
Konstantin Galagan
Если они про одно и тоже в принципе, то да. Это ж ...

А с помощью чего их лучше получать? Есть SOTA в этой области?

ну надо сначала для себя определить критерии похожести / не похожести. меня недавно например попросили дать некий тул для поиска дубликаций NER аннотаций, где точно также не все exact по некоторым причинам оказалось, а искать in не годится, много аннотаций сделанных разными пользователями, у одних из пользователей есть дубли в разных срезах (например по url). я сделал довольно простой пайплайн здесь - https://github.com/imvladikon/annotations_deduplications , который вообще никаких векторов не использует. если три слова надо искать в 20 и речь про лексическое сходство, я б вообще рекомендовал tf-idf/bm25.

ssv
Спасибо!) Посмотрю

ну мой pipeline он больше скажем про кластеризацию (т.е. похоже на дедупликацию, т.е. нужно найти вообще все похожие аннотации), если вам нужно просто первый хит найти, но можно либо как выше совершенно верно написали векторами, либо tf-idf (мой нот просто про то что , если речь про лексическое сходство, tf-idf сильно проще запустить и решить данную задачу)

ssv- Автор вопроса
᠌Vladimir Gurevich
ну мой pipeline он больше скажем про кластеризацию...

это вопрос больше для question answering, на больших текстах плохо работает, есть идея разбивать на более мелкие чанки и искать их похожесть на вопрос, а затем передавать в сетку для генерации ответа

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
в JclConsole объявлено так: function CtrlHandler(CtrlType: DWORD): BOOL; stdcall; - где ваше объявление с stdcall? у вас на картинке нет stdcall
Karagy
8
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
Ребят в СИ можно реализовать ООП?
Николай
33
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
у вас два процесса. один посылает другому сигнал. у вас есть код обоих процессов? если всё не так - расскажите как оно на самом деле. а именно кто кому чего, есть-ли консоли,...
Karagy
6
Карта сайта