Вопрос к экспертам в области RL/RLHF/PPO В реализации RLHF подхода (https://github.com/lvwerra/trl)

авторы вычисляют KL-div между policy и референсной моделью вначале PPO шага.
Т.е. kl-div вычисляется один раз (и добавляется к reward-у), а потом они далют несколько градиентных шагов для модификации policy.
1. Мой вопрос заключается в том, почему они не вычисляют RL перед каждым градиентным шагом?
2. Является ли это хорошей идеей перессчитывать kl-div (и соответственно реворды) после каждого градиентного шага?
3. Почему в RLHF kl-div добавляют в reward, вместо того, чтобы добавить его в лосс?

1 ответов

62 просмотра

1. Так быстрее

Похожие вопросы

Карта сайта