N(mu(s), sigma2(s)), где mu и sigma это выходы нейронки. Но в среде допустимы действия только от -1.0 до +1.0. Как лучше сделать: навестить tanh на распределение или просто клипать выход сетки?
А может рановато RL если такие вопросы?)
Обсуждают сегодня