BERT-a в адаптации на доменные тематики текстов?
привет! вы имеете в виду fine tuning на собственном датасете? или что-то другое?
Надо решить задачу классификации на текстах доменной тематики, перенять опыт scibert Насколько я поняла из анализа литературы, ru-Bert был получен трансфером, не обучением с нуля
Да, диппавловский руберт делали из мультиязычного модификацией словаря и дообучение на русских корпусах. Я в этом году проделывал аналогичную работу с маленьким rubert-tiny.
Поскажите, пожалуйста, (я запуталась в туториалах и скриптах трансформеров) надо отдельно создать новый словарь, отдельно тренировать LM, а потом ещё модифицировать слои в Bert? Остались ли у Вас источники, которыми Вы пользовались?
В простейшем случае можно ничего специально не модифицировать, а просто дообучить все веса нейронки на текстах из своего домена. Говорят, это само по себе на несколько пунктов качество растит. Если очень хочется, можно и словарь обновить, добавив побольше токенов. У меня для этого готовых скриптов нет, но можно взять блокнот из статьи про rubert-tiny (https://habr.com/ru/post/562064), где я делаю противоположную вещь - сокращаю словарь, выкидывая малоиспользуемые токены.
Я сейчас, возможно, глупо задам вопрос, но дообучить веса - это продолжить предобучение или файнтюнинг/настройка просто на текстах ?
Я вообще не вижу разницы между файнтюнингом и продолжением предобучения) Этапов обучения может быть сколько угодно.
Прикольно, думал, что его с нуля обучали. В таком случае, если есть потребность файнтюнить модель для рус+англ+франц, то лучше брать rubert, а не классический multilingual?
Нет, не лучше. Из словаря rubert выкинули токены, редко используемые в русском языке, поэтому другие языки он описывает хуже. Я в своем rubert-tiny оставил много как русских, так и английских токенов, но с французским и другими языками будут проблемы.
спасибо!
Обсуждают сегодня