моделей с HF? Есть смысл или модель основной навык забывать начнёт?
А как предполагается это делать?
Ну, у нас модель из двух кусков - энкодер, который зачастую учили на MLM, и какая-то task-specific надстройка. Я думаю можно было бы на время переставить энкодер в MLM, потюнить на новых данных, а затем вернуть task-specific часть. Вот интересуюсь, какие подводные камни.
Выглядит как один из возможных подходов. Я бы еще пробовал сначала доменно адаптировать как mlm, затем обучать голову на нужную задачу (Если данные из другого домена, возможно, стоит фризить все или часть слоев энкодера, чтобы назад не деадаптировался он.
О, вот про фризить я вообще не подумал, ибо опыта такого небыло. Моя хитрая задумка вообще - поожидать улучшения качества не дообучая на своих данных под задачу (разметки нет) 😏
Так данных для основной задачи нет вроде как..
Ну учили же task-specific голову на чём-то?
Обсуждают сегодня