не цифр и от небуквенных символов? В стеке SpaCy, подумали о проверке через token.is_alpha но это выкинет и токены с цифрами. Грубо говоря нужно убивать '1ый!$#& переулок д!!!!2%', но не '1ый переулок д2' пусть пример вас не смущает, в нашей задаче это не NER'ы
token.isalnum? :D
что то не вижу такого поля или метода у токена)
https://docs.python.org/3/library/stdtypes.html?highlight=isalnum#str.isalnum
возможно, не самый элегантный способ, но если известен конечный набор того, от чего надо очистить, то: import string #print(string.punctuation) # ← здесь дефолтные фильтры, их не оч много. spec_chars = string.punctuation + '\n\xa0«»\t—…' clean_text = " ".join([ch for ch in text if ch not in spec_chars])
Спасибо, я смотрел примерно в эту сторону, но тоже подумал что может есть что то элегантнее. @YallenGusev вот и подсказал что следовало бы в стандартную библиотеку заглядывать))
Обсуждают сегодня