Я чет не очень понимаю каким образом RLHF приводит к бреду. Только в том случае, если сам фидбек содержит бред? Ну так это не то, чтобы проблема подхода, это проблема исполнен...