Ребят, никто не знает как отключить в токенайзере Spacy выделение

Question

Ребят, никто не знает как отключить в токенайзере Spacy выделение

отдельного токена(префикса) если перед строкой стоит не альфабетик? По умолчанию nlp("$Привет") имеет два токена [$, Привет] (мощность 2). нами ожидается получение одного токена в подобных ситуациях [Привет] (мощность 1)

#nlp #programming #russian

0

06.12.2021

2 ответов

46 просмотров

Artyom Artyom Автор вопроса

Скорее даже тупее)) "$Привет" -> "$Привет" так как чистка токенов реализована дальше нативными методами строк python)) Просто токенайзер разбивает "$Привет" на 2 токена (префикс $ +Привет) . А нужен 1 токен с "$Привет". Я сейчас гляжу и более человеческий вариант видимо тот о котором, кажется ты пытаешься рассказать. использовать методы токенов. вроде isalpha или кастомный экстеншн

0

06.12.2021

🖤 |"|',," · Accepted Answer

🖤 |"|',,"

Artyom Artyom
Скорее даже тупее)) "$Привет" -> "$Привет" так как...

Я скорее хотел упомянуть, что в spaCy недеструктивные преобразования, и очистить от лишних токенов не выйдет. Зато можно заменить токенизатор на свой, это нормально и поддерживается.

0

06.12.2021

170 похожих чатов

Ребят, никто не знает как отключить в токенайзере Spacy выделение

2 ответов

Похожие вопросы