такой задач. 1) Надо склеить названия городов в разном написании - например Киев, город Киев, м.Киев, Київ и тп. 2) Есть две базы товаров. Товары одни и те же, но написание может отличаться - Беговада дорожка Еврофит, Дорожка для бега Eurofit и тп. Как понимаю, можно использовать ‘stringdist’. Но может есть, что то, более специалтизированное, как раз под такие задачи? Спасибо
О, полностью такую задачу решат только костыли
То что приходит в голову, это pmatch и всякие n-граммы
Недавно баловался с задачей по приведению названий банков с разным написанием к одному виду. Там, правда, всё примитивно, никаких n-граммов и fuzzy matching Скрипт: https://www.dropbox.com/s/cgvvved2cgtvl1f/banks.R?dl=0 Исходные : https://www.dropbox.com/s/v1ja73tn4g1qehi/Analysts_banks.xlsm?dl=0
Обсуждают сегодня