авторы вычисляют KL-div между policy и референсной моделью вначале PPO шага.
Т.е. kl-div вычисляется один раз (и добавляется к reward-у), а потом они далют несколько градиентных шагов для модификации policy.
1. Мой вопрос заключается в том, почему они не вычисляют RL перед каждым градиентным шагом?
2. Является ли это хорошей идеей перессчитывать kl-div (и соответственно реворды) после каждого градиентного шага?
3. Почему в RLHF kl-div добавляют в reward, вместо того, чтобы добавить его в лосс?
1. Так быстрее
Обсуждают сегодня