170 похожих чатов

Гайс, такой вопрос. Мне надо определить, содержится ли подстрока в

строке, но загвоздка в том, что эта самая строка может быть очень сильно искажена (например, одно слово разрезано на два, второе вообще пропало, а третье заменено на похожее). Обычный fuzzy matching (типа FuzzyWuzzy) в принципе что-то как-то матчит, но в зависимости от treshold получается либо неприятно большое число false negatives, либо огромное число false positives. Мне кажется, что результаты можно как-то улучшить с помощью машинного обучения, но я почти не знаком с этой темой. Можете что-нибудь посоветовать, куда вообще копать?

3 ответов

4 просмотра
Max-Musatov Автор вопроса

Сама подстрока меняется очень редко, так что я могу себе позволить тренировать по модели на каждую возможную подстроку, например. Если это как-то поможет

Совет от кореша который занимается парсингом соц сетей: "Можно просто ебануть расстояние левенштейна или прогнать морфологический анализ при помощи какого-нибудь pymorphy и не ебать себе мозг нейросетями сложными."

Max-Musatov Автор вопроса

Кстати, если кому интересно - я это сделал. Соединил FuzzyWuzzy с линейной регрессией. На некоторых кейсах стало сильно лучше, на некоторых - так же, на самых шумных - хуже. В целом устроило.

Похожие вопросы

Обсуждают сегодня

коллеги, добрый вечер! А никто не знает как модальная форма может себя закрыть? Ну допустим модальная форма определила, что смысла ей работать нет и хочет вернуть modalResult...
Михаил
83
Никто случаем не знает, как по-хорошему делается дозапись текста в edit на винапи?
The Bird of Hermes
25
объясните, я прада не понимаю. зачем в перле нужен аниивент? кому он пригодился в действительно нагруженных проектах?
nerv
30
А какие у этого try практические плюсы перед eval?
Oleg Volkov
41
Hi there everyone Is there anyone who have not started hamster bot yet? I need only one, I'll be glad if you do this for me DM if you haven't yet
Mehrshad
53
Ребзя, а кто-нибудь делал на сайте Турбо Страницы Яндекса? Какую-то пользу они дают или нет? Приносят ли трафик?
Андрей [aharito] Харитонов
20
Скажите, либо я тупой, либо непонятно что. Представьте что в регистре AX = 7FFF (в десятичной системе это число 32767), а в регистре BX = 0FFF (в десятичной системе это -1). У...
Rusplay
19
Рост rps в ~7 раз, а трафик вдруг в 20? Я бы глядя на такой мониторинг озадачился
Artem Tepponen
10
Надо ли говорить, что нужно делать локальные зеркала всего что надо вам для работы, что бы не получилось, как с Docker одним прекрасным утром? 🌝 США запрещают предоставление ...
Alex Sherbakov
6
Ребят, привет. Интересует вопрос: есть ли способ получить доступ к WebView в Linux? Рылся-ковырялся, решения не нашел. Объясню сразу задачу, возможно, скажете, что копаю не в...
advanc3d
13
Карта сайта