170 похожих чатов

Всем привет! Кто-то нибудь может поделиться рецептом, как можно сметчить две

пары строк (до 5 слов в каждой), дубль/не дубль? Это касается брендов.
Данных удалось собрать/разметить ~5к
Сравнение бертовых эмбедингов, логрег поверх них, jaro winkler - работают очень плохо, для берта/dssm кажется мало данных (или нет?)
Логрег с эмбедингами на этих 5к показывает хорошие резы, но на реальных данных сильно путается, мб выборку надо обогатить (как-то)
Заранее спасибо🙏🏼

7 ответов

38 просмотров

привет. можешь показать несколько примеров пар?

фичи в виде посимвольного сравнения/расстояния Левинштэйна пробовала добавлять в модель над эмбэдингами?

Evgeniia-Golubenko Автор вопроса
Arthur
фичи в виде посимвольного сравнения/расстояния Лев...

я пробовала делать так: сжимала эмбединги до 30-40, конкатенировала, потом к этому добавляла jaro_winkler, левинштейна, косинусное подобие между несжатыми эмбедингами, и число общих триграмм/на минимальную длину одной из двух строк (все и сразу, так сказать) хз, либо сама идея сжатия/конкатенации/закидывания в логрег - плохая, либо что-то из пайплайна сделано некорректно

Evgeniia Golubenko
я пробовала делать так: сжимала эмбединги до 30-40...

а есть пост анализ ошибок модели? примеры, где она сильно ошибается.

Evgeniia-Golubenko Автор вопроса
Arthur
на трэй/вал.

точно были ошибки с транслитерациями если бренд1 на английском, бренд2 - его транслитерация, хотя в обучении были такие семплы + некоторые паттерны, например, общие слова (но дропнуть как мусорные их не могу, тк они важны для многих брендов), или приколы, как на скрине (первый интовый столбец - таргет, второй - предикт)

Evgeniia Golubenko
точно были ошибки с транслитерациями если бренд1 н...

ну вот кажется, что проблема с эмбеддингами в том, что здесь требуется мэтч именно в лексическом смысле, а не смысловом, и разные бренды про одно и то же могут моделью классифицироваться как мэтч, потому что эмбеддинги близкие.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта