так. Где можно почитать про контекстуализацию больших языковых моделей вроде гпт3? Допустим есть такая модель обученная на огромном корпусе, имеющая представление о русском языке как таковом. Скажем, я хочу на основе этой модели сделать чатбота, который будет дообучен на данных из конкретного чатика, чтобы усвоить местный сленг, локальные мемы етц. Это решаемая задача вообще? Как можно доучивая такую мощную модель заставить ее обращать больше внимания на гораздо более мелкий по сравнению с оригинальным корпус с интересующей спецификой?
Переориентация на более маленький корпус происходит автоматически при дообучении на этом корпусе. Тут важно скорее наоборот, не переобучиться под собственный корпус, чтобы большая модель продолжала нормально работать на диалогах, которых в этом маленьком корпусе нет. Отрегулировать степень переобучения проще всего, проверяя, как работает модель раз в K эпох обучения. В этом блокноте есть минималистичный пример дообучения маленькой русской болталки, основанной на T5, на выгрузке чата разработчиков Яндекс.Алисы. Можно этот код взять за основу, но подставить вместо маленькой болталки модели GPT от Сбера, у которых фантазии побольше.
спасибо большое!
Обсуждают сегодня