170 похожих чатов

Всем привет, кто как работает с незнакомыми словами в берте

? я знаю про работу токенайзера, но хочется узнать, какие подходы могут сделать качество еще лучше (мб заменять неизвестные слова на какой-то существующий токен ?)

7 ответов

12 просмотров

1) дефолтный вариант: ничего особого не делать, положиться на токенайзер. 2) вариант для смелых: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.

Для неизвестных слов по умолчанию уже есть unk токен, если вы об этом Можно добавить свои через add_special_token например (это все с huggingface)

Спасибо, второй способ звучит как то, что можно попробовать)))

Этот UNK кто-то живьём видел кроме как в предсказании?

Только на символах из редких алфавитов

О. Точно. Логично.

да, часто но это просто странности моделей

Похожие вопросы

Обсуждают сегодня

Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
Хотел бы спросить у знающих, правильную ли я выбрал книгу для начала изучения ассемблера Юрова В.И ? Или есть более лучшие книги для начала обучения?
Botsman
31
$params = [ 'formid' => 'feedbackForm', 'formTpl' => '@CODE: <form class="form-validate" data-id="ajax_form"> <fieldset class="margin-bottom-md"> ...
Pathologic
1
Всем привет, подскажите/посоветуйте пожалуйста. Фаердак компоненты, имею одно место где бизнес хочет видеть при открытии формы список всех клиентов, это порядка 30к. Мои дово...
Sasha Sch
6
А как лучше конвертировать физический адрес в виртуальный при маппинге? В случае ядра у меня, например, direct mapping, первые 768МБ я как есть мапплю в higher half, а остальн...
Evg Resh
8
Книга Юрова В.И пойдёт для обучения?
Botsman
24
Всем доброго дня, ребят подскажите пожалуйста, если в курсе по ассемблеру используется MASM32, могу ли я использовать FASM? В чем явная разница и будет ли у меня все работать?
Botsman
17
Где можно найти примеры эффективного "асинхронного" tcp сервера на C? Я видел select, kqueue, poll, epoll и т.д. Ввод-вывод неблокирующий, но обработка клиентов блокирующая
#
10
Hi Everyone! To all Are you Looking for Interview Support at the Lowest Price? Look no further! Then contact us 👉We offer Interview Support :-for a low cost variety of tech...
Rambabu Nallamilli
3
И ещё вопрос: можно ли типа как на дос как-то запариться и с помощью прерываний выводить текст, вместо функции printf ?
НѣкъиⰘижєжєиꙁъвьсєсвѣтьноѣсѣтиѥсть•
34
Карта сайта