Походу, этим занимаются только для игровых целей), хотя конечно есть области где это будет интересно применить на практике).
RL для обучения чего-то реально полезного жрёт на порядок-другой больше времени/выч. мощности
Нуу, RL же может работать там где другое не может (или с чем сравнение), как время-мощности сравниваются?)
Минимальная полезная задача в рл вс другое требует больше ресурсов
Значит никто мне не поможет?(((( Я попытался уменьшить энтропию, результат хуже. Могу ещё попытаться увеличить модель.
Ну, у меня в планах заюзать RL есть, но у меня этот год под лозунгом практической применимости, а это больше подпадает под экспериментальное направление)), так что хз когда
Пока что слишком много подбора параметров
Если ты на биржевых данных, возможно, дело в зашумленности закономерностей в данных, а не в архитектуре и т.д. Попробуй может на искусственных данных - будет ли работать.
Да, или архитектура или данные, но я попробовал SACD на других данных и вроде норм, также в issues нашёл, что есть большие траблы с гиперпараметрами. Саму модельку немного изменил, добавил transformerencoder
В общем, есть параметр который считает целевую энтропию, и я вычислил, что при дефолтных значениях в моей среде, модель получает больше вознаграждения от энтропии, чем её среда ругает за случайные действия, поэтому модель просто начинает действовать рандомно)
Ну можно какие-нить поправочные веса ввести? Или это и так понятно, а проблема была понять в чем затык?)
Вангую, проблем будет куча, это одна из них. Одна модель учится 12 часов 1_000_000 шагов.
Обсуждают сегодня