170 похожих чатов

Всем привет, кто как работает с незнакомыми словами в берте

? я знаю про работу токенайзера, но хочется узнать, какие подходы могут сделать качество еще лучше (мб заменять неизвестные слова на какой-то существующий токен ?)

7 ответов

21 просмотр

1) дефолтный вариант: ничего особого не делать, положиться на токенайзер. 2) вариант для смелых: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.

Для неизвестных слов по умолчанию уже есть unk токен, если вы об этом Можно добавить свои через add_special_token например (это все с huggingface)

Спасибо, второй способ звучит как то, что можно попробовать)))

Этот UNK кто-то живьём видел кроме как в предсказании?

Только на символах из редких алфавитов

О. Точно. Логично.

да, часто но это просто странности моделей

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта