170 похожих чатов

Гайс, такой вопрос. Мне надо определить, содержится ли подстрока в

строке, но загвоздка в том, что эта самая строка может быть очень сильно искажена (например, одно слово разрезано на два, второе вообще пропало, а третье заменено на похожее). Обычный fuzzy matching (типа FuzzyWuzzy) в принципе что-то как-то матчит, но в зависимости от treshold получается либо неприятно большое число false negatives, либо огромное число false positives. Мне кажется, что результаты можно как-то улучшить с помощью машинного обучения, но я почти не знаком с этой темой. Можете что-нибудь посоветовать, куда вообще копать?

3 ответов

15 просмотров
Max-Musatov Автор вопроса

Сама подстрока меняется очень редко, так что я могу себе позволить тренировать по модели на каждую возможную подстроку, например. Если это как-то поможет

Совет от кореша который занимается парсингом соц сетей: "Можно просто ебануть расстояние левенштейна или прогнать морфологический анализ при помощи какого-нибудь pymorphy и не ебать себе мозг нейросетями сложными."

Max-Musatov Автор вопроса

Кстати, если кому интересно - я это сделал. Соединил FuzzyWuzzy с линейной регрессией. На некоторых кейсах стало сильно лучше, на некоторых - так же, на самых шумных - хуже. В целом устроило.

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Всем привет! Кто пользуется DevExpress, подскажите пожалуйста, реализован ли в TcxGrid в новых версиях поиск по датам как в Экселе (ну т.е. не просто список чекбоксов со значе...
A Z
4
Карта сайта