где тренируется RL агент выражен например коефициентом эффективности?
Тренирую агента у которого задача находить и держать оптимальный коефициент буста системы (пример: разгон процессора). Reward у меня в данном случае значение от -1 до 1. -1 это означает эффективность системы (-100% эффективность нулевая), 0 это стабильная работа, 1 это прирост 100%.
Вопрос: как правильно подавать этот reward? посмотрел примеры с openai gym там везде он выдается по факту совершенного действия? А что делать случае если я сам не знаю правильное или неправильное действие, есть только общий коефициент эффективности который или растет или падает от совершаемых действий?
ну хороший агент по идее должен понять зависимость от действий
Обсуждают сегодня