Кто в курсе как из хагингфейсовских токенизаторов убирать нежелательные токены?

Делаю так, результат не очевидный. Кроме того, как модель понимает, какие именно эмбеддинги ей удалять? Видимо, никак? Какой-то рецепт есть нормальный по ужатию словаря?

3 ответов

20 просмотров

Если тебе нужно удалять только для генерации, то у huggingface есть атрибут bad_words_ids

Alex-Konst Автор вопроса

нет, хочу ужать слой эмбеддингов для облегчения

Ну значит сам токенизатор трогать не обязательно А тогда легче всего сделать маппинги

Похожие вопросы

Обсуждают сегодня

Он в одиночку это дело запилил или была какая-то команда?
Aquinary
12
Вообще кстати бывают такие тулкиты чтобы вот разработал под ОС X, всё оттестировал работает А потом собрал под ОС Y - и там просто без вообще любых изменений заработало?
Serg Gini
14
А тут все сообщения из матрикс сервера видны будут?
Serg Gini
2
всем привет, кто знает нормальный гайд как настроить отладчик в Intelij на Windows?
QUAD69
6
А в чем прикол этого матрикса? @quantumde1
Serg Gini
1
И его забанить админ если что сможет потом?
Serg Gini
1
моста? это теперь так гейт называют?
Karagy
1
А, вообще, знает кто-нить альтернативы D в области безопасных, читабельных ОО-языков?
Nik Lan
14
Работа над эдишенами там какая-то ведется? Или пока что тишина?
Serg Gini
1
приветствую. хочу сделать себе D Playground вопрос: можете подсказать с чего мне следует начать и в какую сторону двигаться? P.S.: я не являюсь программистом... но в небольш...
dd
5
Карта сайта