Всем привет! Кто-то нибудь может поделиться рецептом, как можно сметчить две

Question

Всем привет! Кто-то нибудь может поделиться рецептом, как можно сметчить две

пары строк (до 5 слов в каждой), дубль/не дубль? Это касается брендов.
Данных удалось собрать/разметить ~5к
Сравнение бертовых эмбедингов, логрег поверх них, jaro winkler - работают очень плохо, для берта/dssm кажется мало данных (или нет?)
Логрег с эмбедингами на этих 5к показывает хорошие резы, но на реальных данных сильно путается, мб выборку надо обогатить (как-то)
Заранее спасибо🙏🏼

#nlp #programming #russian

0

28.06.2022

7 ответов

42 просмотра

Arthur

фичи в виде посимвольного сравнения/расстояния Левинштэйна пробовала добавлять в модель над эмбэдингами?

0

28.06.2022

Evgeniia Golubenko Автор вопроса

Arthur
фичи в виде посимвольного сравнения/расстояния Лев...

я пробовала делать так: сжимала эмбединги до 30-40, конкатенировала, потом к этому добавляла jaro_winkler, левинштейна, косинусное подобие между несжатыми эмбедингами, и число общих триграмм/на минимальную длину одной из двух строк (все и сразу, так сказать) хз, либо сама идея сжатия/конкатенации/закидывания в логрег - плохая, либо что-то из пайплайна сделано некорректно

0

28.06.2022

Arthur

Evgeniia Golubenko
я пробовала делать так: сжимала эмбединги до 30-40...

а есть пост анализ ошибок модели? примеры, где она сильно ошибается.

0

28.06.2022

Arthur

Arthur
а есть пост анализ ошибок модели? примеры, где она...

на трэй/вал.

0

28.06.2022

Evgeniia Golubenko Автор вопроса

Arthur
на трэй/вал.

точно были ошибки с транслитерациями если бренд1 на английском, бренд2 - его транслитерация, хотя в обучении были такие семплы + некоторые паттерны, например, общие слова (но дропнуть как мусорные их не могу, тк они важны для многих брендов), или приколы, как на скрине (первый интовый столбец - таргет, второй - предикт)

0

28.06.2022

Arthur

Evgeniia Golubenko
точно были ошибки с транслитерациями если бренд1 н...

ну вот кажется, что проблема с эмбеддингами в том, что здесь требуется мэтч именно в лексическом смысле, а не смысловом, и разные бренды про одно и то же могут моделью классифицироваться как мэтч, потому что эмбеддинги близкие.

0

28.06.2022

Arthur · Accepted Answer

Arthur

привет. можешь показать несколько примеров пар?

0

28.06.2022

170 похожих чатов

Всем привет! Кто-то нибудь может поделиться рецептом, как можно сметчить две

7 ответов

Похожие вопросы