Кто в курсе как из хагингфейсовских токенизаторов убирать нежелательные токены?

Делаю так, результат не очевидный. Кроме того, как модель понимает, какие именно эмбеддинги ей удалять? Видимо, никак? Какой-то рецепт есть нормальный по ужатию словаря?

3 ответов

23 просмотра

Если тебе нужно удалять только для генерации, то у huggingface есть атрибут bad_words_ids

Alex-Konst Автор вопроса

нет, хочу ужать слой эмбеддингов для облегчения

Ну значит сам токенизатор трогать не обязательно А тогда легче всего сделать маппинги

Похожие вопросы

Карта сайта