Вопрос к экспертам в области RL/RLHF/PPO В реализации RLHF подхода (https://github.com/lvwerra/trl) авторы вычисляют KL-div между policy и референсной моделью вначале PPO шага...