продукции. Эти самые адреса вносятся вручную пользователем, а хранятся они убожествейнишим образом - varchar. То есть в общем итоге, в базе куча дублирующихся адресов, которые отличаются друг от друга перестановкой слов и сокращениями. Каким вариантом можно решить проблему с дублированием? Я начиталась про MDM системы, может кто посоветует насчет них?
Почему не использовать готовое решение, например https://tech.yandex.ru/maps/geocoder/ ?
можно взять алгоритм для сравнения похожести слов. дальше разбиваешь каждый адрес на слова, таким образом адрес представляется как множество слов. и считаешь для каждой пары адресов коэффициент жаккарда, где совпадающими считаешь очень близкие слова. эмпирически подбираешь значение при котором два адреса объявляются одинаковыми. в моем случае сравнивались названия фирм, было в районе 0.7
Обсуждают сегодня