Всем привет, кто как работает с незнакомыми словами в берте

Question

Всем привет, кто как работает с незнакомыми словами в берте

? я знаю про работу токенайзера, но хочется узнать, какие подходы могут сделать качество еще лучше (мб заменять неизвестные слова на какой-то существующий токен ?)

#nlp #programming #russian

0

16.08.2021

7 ответов

39 просмотров

Bogdan

Для неизвестных слов по умолчанию уже есть unk токен, если вы об этом Можно добавить свои через add_special_token например (это все с huggingface)

0

16.08.2021

Александр Гамбашидзе Автор вопроса

Спасибо, второй способ звучит как то, что можно попробовать)))

0

16.08.2021

PuffOfSmoke

Этот UNK кто-то живьём видел кроме как в предсказании?

0

16.08.2021

David Dalé

Только на символах из редких алфавитов

0

16.08.2021

PuffOfSmoke

О. Точно. Логично.

0

16.08.2021

Bogdan

да, часто но это просто странности моделей

0

16.08.2021

David Dalé · Accepted Answer

1) дефолтный вариант: ничего особого не делать, положиться на токенайзер. 2) вариант для смелых: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.

170 похожих чатов

Всем привет, кто как работает с незнакомыми словами в берте

7 ответов

Похожие вопросы