170 похожих чатов

Коллеги, всем привет ) вытаскиваю короткие текстовые запросы по контекстной близости первоначальная

идея заключалась в том, что нужно вытащить запросы, близкие по контексту , например, к "Не подтвердить адрес проживания".
Предполагалось, что по контекстной близости близкими будут примерно такие
"Не получается подтвердить адрес"
"Не могу подтвердить адрес"
"Подскажите, как подтвердить адрес",
то есть упор на "подтвердить адрес"

Так оно и получилось
НО (!):
"Не могу подтвердить электронный адрес",
"Не могу подтвердить ... "(еще что-то там
также оказались близкими, так как в них есть "не могу подтвердить",
но это совершенно другой тип запроса.

Кто сталкивался с подобной ситуацией?

Как выделять контекстную близость именно про "подтвердить адрес",
а не про "не могу подтвердить"?

4 ответов

21 просмотр

Сталкиваюсь постоянно. Пробовал два пути решения, оба работали (в том числе и в комбинации): 1) Дообучение энкодера предложений на собственном датасете на задачу metric learning: сближать эмбеддинги пар предложений из одного класса, и отталкивать эмбеддинги пар из разных. Работает хорошо, но можно нечаянно сломать энкодер, особенно если есть классы, состоящие из очень разнородных по смыслу примеров. 2) Не менять энкодер, но изменить формулу для расчета близости: например, из близости пары предложений вычитать (или делить на) среднюю близость k ближайших соседей каждого из них (как в статье Artexte и Schwenk ), чтобы оштрафовать примеры, которые хоть и похожи на ваш, но есть и другие, ещё более похожие.

А вы не пробовали так подойти: 1. рассматривать полученные по запросу результаты, как кандидатов 2. применить к кандидатам NLI. Причем тут вариантов появляется множество

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта