Вопрос к экспертам в области RL/RLHF/PPO В реализации RLHF подхода (https://github.com/lvwerra/trl)

Question

Вопрос к экспертам в области RL/RLHF/PPO В реализации RLHF подхода (https://github.com/lvwerra/trl)

авторы вычисляют KL-div между policy и референсной моделью вначале PPO шага.
Т.е. kl-div вычисляется один раз (и добавляется к reward-у), а потом они далют несколько градиентных шагов для модификации policy.
1. Мой вопрос заключается в том, почему они не вычисляют RL перед каждым градиентным шагом?
2. Является ли это хорошей идеей перессчитывать kl-div (и соответственно реворды) после каждого градиентного шага?
3. Почему в RLHF kl-div добавляют в reward, вместо того, чтобы добавить его в лосс?

#communication #dlinnlp #nlp #russian

0

02.08.2023

1 ответов

84 просмотра

Evgenii Zheltonozhskii🇮🇱 · Accepted Answer

Evgenii Zheltonozhskii🇮🇱

1. Так быстрее

0

02.08.2023

5 похожих чатов

Вопрос к экспертам в области RL/RLHF/PPO В реализации RLHF подхода (https://github.com/lvwerra/trl)

1 ответов

Похожие вопросы