масок руками наделать
кстати, хорошая идея...
очень часто регулярки являются шагом 0. Причем ручной частотный анализ токенов позволяет интерактивно подобрать типовые ошибки и написать минимальный набор регулярок. так что после них текст начинает выглядеть очень чистым. ручная аналитическая петля при исследовании задачи он очень хорошо позволяет выцепить неграмотность писателей (например, инциденты, открываемые грузчиками и курьерами...) и типичные ошибки — тут вообще логики никакой не существует. только факты
я без регулярок не хожу анализировать тексты. LDA и прочее это все весело, но вот пара часов руками пописать регулярок и посмотреть что получается - дают прям хорошее понимание. А в случае когда уже известно что хочешь найти и вопрос на 10 слов важных - то часто проще ими вытащить
Обсуждают сегодня