Можно как-нибудь применять RLHF для задачи классификации(token/sentence)? Если для диалогов

Question

Можно как-нибудь применять RLHF для задачи классификации(token/sentence)? Если для диалогов

так хорошо зашло, может и для более простых задач можно применить? Есть что почитать на эту тему? Подобные примеры применения не нашёл, а хочется позапускать блокноты 📝 самому

#nlp #programming #russian

0

22.05.2023

3 ответов

38 просмотров

Yuriy Nazarov

Yuriy Nazarov
Нет. RL нужен для задач решаемых за много шагов. Н...

Если у вас LLM + Chain of thoughts, то может и подойдёт.

0

22.05.2023

David Dalé

Идея RLHF - в том, что есть дополнительная модель, которая обучена предсказывать качество ответа основной модели, а основная модель, в свою очередь, потом обучается это предсказанное качество максимизировать. Весь этот цирк нужен только потому, что в задаче генерации текстового ответа на произвольный вопрос очень сложно автоматически оценить качество. А в задачах типа классификации, где качество естественным образом оценивается как вероятность предсказания верного ответа, отдельный трансформер для оценки качества вряд ли сможет принести заметную пользу.

0

22.05.2023

Yuriy Nazarov · Accepted Answer

Yuriy Nazarov

Нет. RL нужен для задач решаемых за много шагов. Например авторегрессионная генерация текста. Классификацию обычно Бертом за одно применение модели решают.

0

22.05.2023

170 похожих чатов

Можно как-нибудь применять RLHF для задачи классификации(token/sentence)? Если для диалогов

3 ответов

Похожие вопросы