В rlhf если есть reward_model(input, predict), который оценивает насколько хорошо

Question

В rlhf если есть reward_model(input, predict), который оценивает насколько хорошо

подходит predict к input, то насколько адекватная мысль валидировать RM с помощью оптимизации по входу predict при фиксированном input и весах модели?

#communication #dlinnlp #nlp #russian

0

23.05.2023