В rlhf если есть reward_model(input, predict), который оценивает насколько хорошо

подходит predict к input, то насколько адекватная мысль валидировать RM с помощью оптимизации по входу predict при фиксированном input и весах модели?

2 ответов

40 просмотров

получишь adversarial example скорее всего

Ilya- Автор вопроса
Evgenii Zheltonozhskii🇮🇱
получишь adversarial example скорее всего

вот на практике так и получается, да

Похожие вопросы

Карта сайта