непрерывного пространства действий. Кто из них больше памяти потребляет например. Нужна награда на каждом действии? Или можно награждать в конце эпизода, по результату всех действий? Сильно это замедлит обучение?
За ddpg не скажу. PPO я сам реализовал, это было непросто. Я сделал вывод, что PPO работает лучше A2C, A3C и DQN. Все перечисленные алгоритмы работают лучше, когда reward есть на каждом шаге. Если reward только в конце эпизода, то лучше работают Evolution Strategy алгоритмы. Это лишь мой опыт, и я не претендую на правильность.
Обсуждают сегодня