Доброго времени суток) Кто сталкивался с проблемой когда reward в среде

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Доброго времени суток) Кто сталкивался с проблемой когда reward в среде

где тренируется RL агент выражен например коефициентом эффективности?
Тренирую агента у которого задача находить и держать оптимальный коефициент буста системы (пример: разгон процессора). Reward у меня в данном случае значение от -1 до 1. -1 это означает эффективность системы (-100% эффективность нулевая), 0 это стабильная работа, 1 это прирост 100%.
Вопрос: как правильно подавать этот reward? посмотрел примеры с openai gym там везде он выдается по факту совершенного действия? А что делать случае если я сам не знаю правильное или неправильное действие, есть только общий коефициент эффективности который или растет или падает от совершаемых действий?

#database #programming #russian #software

0

26.12.2018

1 ответов

28 просмотров

Evgenii Zheltonozhskii🇮🇱 · Accepted Answer

Evgenii Zheltonozhskii🇮🇱

ну хороший агент по идее должен понять зависимость от действий

0

26.12.2018

215 похожих чатов

Доброго времени суток) Кто сталкивался с проблемой когда reward в среде

1 ответов

Похожие вопросы