преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. " а какие методы обучения требуют модель окружающей среды?
не уверен. обучение с подкрлением..?
Value/Policy Iteration, например
Обсуждают сегодня