так хорошо зашло, может и для более простых задач можно применить? Есть что почитать на эту тему? Подобные примеры применения не нашёл, а хочется позапускать блокноты 📝 самому
Нет. RL нужен для задач решаемых за много шагов. Например авторегрессионная генерация текста. Классификацию обычно Бертом за одно применение модели решают.
Если у вас LLM + Chain of thoughts, то может и подойдёт.
Идея RLHF - в том, что есть дополнительная модель, которая обучена предсказывать качество ответа основной модели, а основная модель, в свою очередь, потом обучается это предсказанное качество максимизировать. Весь этот цирк нужен только потому, что в задаче генерации текстового ответа на произвольный вопрос очень сложно автоматически оценить качество. А в задачах типа классификации, где качество естественным образом оценивается как вероятность предсказания верного ответа, отдельный трансформер для оценки качества вряд ли сможет принести заметную пользу.
Обсуждают сегодня