не 1. Попыталась написать правило, но теперь в конце знаки препинания склеиваются к токену : [окно,][кто-то]. У кого-нибудь было решение подобной проблемы, как в re можно прописать регулярное выражение?
from spacy.tokenizer import Tokenizer
pattern = r'''\w+-\w+'''
rule = re.compile(pattern)
def custom_tokenizer(nlp):
return Tokenizer(nlp.vocab, infix_finditer=rule.finditer, token_match=None)
nlp.tokenizer = custom_tokenizer(nlp)
в nltk есть RegexpTokenizer
да, с ним сработало, но у меня цикл по предложениям, а в NLTK неправильно распознаются, подумала на spacy делать
Обсуждают сегодня