отдельного токена(префикса) если перед строкой стоит не альфабетик? По умолчанию nlp("$Привет") имеет два токена [$, Привет] (мощность 2). нами ожидается получение одного токена в подобных ситуациях [Привет] (мощность 1)
Скорее даже тупее)) "$Привет" -> "$Привет" так как чистка токенов реализована дальше нативными методами строк python)) Просто токенайзер разбивает "$Привет" на 2 токена (префикс $ +Привет) . А нужен 1 токен с "$Привет". Я сейчас гляжу и более человеческий вариант видимо тот о котором, кажется ты пытаешься рассказать. использовать методы токенов. вроде isalpha или кастомный экстеншн
Я скорее хотел упомянуть, что в spaCy недеструктивные преобразования, и очистить от лишних токенов не выйдет. Зато можно заменить токенизатор на свой, это нормально и поддерживается.
Обсуждают сегодня