пары строк (до 5 слов в каждой), дубль/не дубль? Это касается брендов.
Данных удалось собрать/разметить ~5к
Сравнение бертовых эмбедингов, логрег поверх них, jaro winkler - работают очень плохо, для берта/dssm кажется мало данных (или нет?)
Логрег с эмбедингами на этих 5к показывает хорошие резы, но на реальных данных сильно путается, мб выборку надо обогатить (как-то)
Заранее спасибо🙏🏼
привет. можешь показать несколько примеров пар?
фичи в виде посимвольного сравнения/расстояния Левинштэйна пробовала добавлять в модель над эмбэдингами?
я пробовала делать так: сжимала эмбединги до 30-40, конкатенировала, потом к этому добавляла jaro_winkler, левинштейна, косинусное подобие между несжатыми эмбедингами, и число общих триграмм/на минимальную длину одной из двух строк (все и сразу, так сказать) хз, либо сама идея сжатия/конкатенации/закидывания в логрег - плохая, либо что-то из пайплайна сделано некорректно
а есть пост анализ ошибок модели? примеры, где она сильно ошибается.
точно были ошибки с транслитерациями если бренд1 на английском, бренд2 - его транслитерация, хотя в обучении были такие семплы + некоторые паттерны, например, общие слова (но дропнуть как мусорные их не могу, тк они важны для многих брендов), или приколы, как на скрине (первый интовый столбец - таргет, второй - предикт)
ну вот кажется, что проблема с эмбеддингами в том, что здесь требуется мэтч именно в лексическом смысле, а не смысловом, и разные бренды про одно и то же могут моделью классифицироваться как мэтч, потому что эмбеддинги близкие.
Обсуждают сегодня