Рискну предположить, что такой формат обучения сработает, потому что gpt не seq2seq модель, а генеративная, то есть за один свой “шаг” она берет исходное предложение и добавляет один токен. Потом как исходное берет предложение с добавленным токеном и добавляет ещё один токен. Так что предложения в датасете без префикса в виде “тема: <тема>”, а с префиксом “сочинение:” учат модель, что может быть в сочинении (например, какая структура), не основываясь на теме перед ней
Логично, но стало страшнее от предстоящих игрищ
Обучение декодера происходит не так, как генерация текста после. 1) Текст бьётся на последовательности, которые помещаются в трансформер 2) Всю последовательность (кроме последнего токена), подают на вход в трансформер, для каждого токена маской закрывают все правые от него 3) Для каждого токена предсказывают следующий после него и сравнивают с оригиналом 4) Лосс
Обсуждают сегодня