Может кто подсказать преимущества и недостатки ddpg и ppo для

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Может кто подсказать преимущества и недостатки ddpg и ppo для

непрерывного пространства действий. Кто из них больше памяти потребляет например. Нужна награда на каждом действии? Или можно награждать в конце эпизода, по результату всех действий? Сильно это замедлит обучение?

#database #programming #russian #software

0

15.05.2022

1 ответов

42 просмотра

Pavel Chernov · Accepted Answer

За ddpg не скажу. PPO я сам реализовал, это было непросто. Я сделал вывод, что PPO работает лучше A2C, A3C и DQN. Все перечисленные алгоритмы работают лучше, когда reward есть на каждом шаге. Если reward только в конце эпизода, то лучше работают Evolution Strategy алгоритмы. Это лишь мой опыт, и я не претендую на правильность.

215 похожих чатов

Может кто подсказать преимущества и недостатки ddpg и ppo для

1 ответов

Похожие вопросы