Ребят, тут есть профессиональные тюнеры РЛ моделек?

Ну, у меня в планах заюзать RL есть, но у меня этот год под лозунгом практической применимости, а это больше подпадает под экспериментальное направление)), так что хз когда

0

03.01.2021

Vadim Chashechnikov Автор вопроса

Mihail Kremlev
Ну, у меня в планах заюзать RL есть, но у меня это...

Пока что слишком много подбора параметров

0

04.01.2021

Mihail Kremlev

Vadim Chashechnikov
Пока что слишком много подбора параметров

Если ты на биржевых данных, возможно, дело в зашумленности закономерностей в данных, а не в архитектуре и т.д. Попробуй может на искусственных данных - будет ли работать.

0

04.01.2021

Vadim Chashechnikov Автор вопроса

Mihail Kremlev
Если ты на биржевых данных, возможно, дело в зашум...

Да, или архитектура или данные, но я попробовал SACD на других данных и вроде норм, также в issues нашёл, что есть большие траблы с гиперпараметрами. Саму модельку немного изменил, добавил transformerencoder

0

04.01.2021

Vadim Chashechnikov Автор вопроса

Vadim Chashechnikov
Да, или архитектура или данные, но я попробовал SA...

В общем, есть параметр который считает целевую энтропию, и я вычислил, что при дефолтных значениях в моей среде, модель получает больше вознаграждения от энтропии, чем её среда ругает за случайные действия, поэтому модель просто начинает действовать рандомно)

0

04.01.2021

Mihail Kremlev

Vadim Chashechnikov
В общем, есть параметр который считает целевую энт...

Ну можно какие-нить поправочные веса ввести? Или это и так понятно, а проблема была понять в чем затык?)

0

04.01.2021

Vadim Chashechnikov Автор вопроса

Mihail Kremlev
Ну можно какие-нить поправочные веса ввести? Или э...

Вангую, проблем будет куча, это одна из них. Одна модель учится 12 часов 1_000_000 шагов.

0

04.01.2021