Есть много текстов (тексты новостей с местных новостных порталов). В этих

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Есть много текстов (тексты новостей с местных новостных порталов). В этих

текстах есть адреса, но они все в совершенно разных форматах ("на ул. Буденого", "возле десятого дома Черниговского пр-та", "в доме номер 10 на Великолукской ул." и т.п.)

Так вот, как мне эти адреса доставать с достаточно высокой точностью (хотя бы процентов 80 адресов)?

Есть у кого опыт подобных задач? Может, накидаете ссылок на подробные маны?

Я думаю в сторону нейронных сетей (на вход подавать справочник существующих адресов и тексты новостей, есть возможность пару тысяч новостеек обработать вручную для обучения), но опыта у меня с ними нет, если не считать синтетических обучающих примеров. Может, есть готовые предобученные конфигурации для распознавания русского текста?

#database #programming #russian #software

0

18.09.2016

3 ответов

31 просмотр

Ivan K.

А если просто скормить геокодеру того же яндекса? У меня была подобная задача но сильно попроще. Менеджеры в бд писали адреса как хотели и надо было привезти все к одному формату.

0

18.09.2016

Паша Назаров

не реклама, просто очень известная компания делает: https://dadata.ru/merging/#address

0

19.09.2016

Леонид Л · Accepted Answer

Леонид Л

Магии не будет. Отличать адрес от не адреса, конечно, можно, но проще проверкой по списку названий улиц. А найти начало адреса и конец - для этого нейронка вообще очень слабо подходит.Грамматический разбор больше подходит

0

18.09.2016

215 похожих чатов

Есть много текстов (тексты новостей с местных новостных порталов). В этих

3 ответов

Похожие вопросы