? я знаю про работу токенайзера, но хочется узнать, какие подходы могут сделать качество еще лучше (мб заменять неизвестные слова на какой-то существующий токен ?)
1) дефолтный вариант: ничего особого не делать, положиться на токенайзер. 2) вариант для смелых: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.
Для неизвестных слов по умолчанию уже есть unk токен, если вы об этом Можно добавить свои через add_special_token например (это все с huggingface)
Спасибо, второй способ звучит как то, что можно попробовать)))
Этот UNK кто-то живьём видел кроме как в предсказании?
Только на символах из редких алфавитов
О. Точно. Логично.
да, часто но это просто странности моделей
Обсуждают сегодня