Кто в курсе как из хагингфейсовских токенизаторов убирать нежелательные токены?

Question

Кто в курсе как из хагингфейсовских токенизаторов убирать нежелательные токены?

Делаю так, результат не очевидный. Кроме того, как модель понимает, какие именно эмбеддинги ей удалять? Видимо, никак? Какой-то рецепт есть нормальный по ужатию словаря?

#communication #dlinnlp #nlp #russian

0

17.08.2021