текстах есть адреса, но они все в совершенно разных форматах ("на ул. Буденого", "возле десятого дома Черниговского пр-та", "в доме номер 10 на Великолукской ул." и т.п.)
Так вот, как мне эти адреса доставать с достаточно высокой точностью (хотя бы процентов 80 адресов)?
Есть у кого опыт подобных задач? Может, накидаете ссылок на подробные маны?
Я думаю в сторону нейронных сетей (на вход подавать справочник существующих адресов и тексты новостей, есть возможность пару тысяч новостеек обработать вручную для обучения), но опыта у меня с ними нет, если не считать синтетических обучающих примеров. Может, есть готовые предобученные конфигурации для распознавания русского текста?
Магии не будет. Отличать адрес от не адреса, конечно, можно, но проще проверкой по списку названий улиц. А найти начало адреса и конец - для этого нейронка вообще очень слабо подходит.Грамматический разбор больше подходит
А если просто скормить геокодеру того же яндекса? У меня была подобная задача но сильно попроще. Менеджеры в бд писали адреса как хотели и надо было привезти все к одному формату.
не реклама, просто очень известная компания делает: https://dadata.ru/merging/#address
Обсуждают сегодня