Похожие чаты

Ребят, тут есть профессиональные тюнеры РЛ моделек?

12 ответов

1 просмотр

Походу, этим занимаются только для игровых целей), хотя конечно есть области где это будет интересно применить на практике).

Mihail Kremlev
Походу, этим занимаются только для игровых целей),...

RL для обучения чего-то реально полезного жрёт на порядок-другой больше времени/выч. мощности

Лис Электронщик
RL для обучения чего-то реально полезного жрёт на ...

Нуу, RL же может работать там где другое не может (или с чем сравнение), как время-мощности сравниваются?)

Mihail Kremlev
Нуу, RL же может работать там где другое не может ...

Минимальная полезная задача в рл вс другое требует больше ресурсов

Vadim-Chashechnikov Автор вопроса
Mihail Kremlev
Походу, этим занимаются только для игровых целей),...

Значит никто мне не поможет?(((( Я попытался уменьшить энтропию, результат хуже. Могу ещё попытаться увеличить модель.

Vadim Chashechnikov
Значит никто мне не поможет?(((( Я попытался умень...

Ну, у меня в планах заюзать RL есть, но у меня этот год под лозунгом практической применимости, а это больше подпадает под экспериментальное направление)), так что хз когда

Vadim-Chashechnikov Автор вопроса
Mihail Kremlev
Ну, у меня в планах заюзать RL есть, но у меня это...

Пока что слишком много подбора параметров

Vadim Chashechnikov
Пока что слишком много подбора параметров

Если ты на биржевых данных, возможно, дело в зашумленности закономерностей в данных, а не в архитектуре и т.д. Попробуй может на искусственных данных - будет ли работать.

Vadim-Chashechnikov Автор вопроса
Mihail Kremlev
Если ты на биржевых данных, возможно, дело в зашум...

Да, или архитектура или данные, но я попробовал SACD на других данных и вроде норм, также в issues нашёл, что есть большие траблы с гиперпараметрами. Саму модельку немного изменил, добавил transformerencoder

Vadim-Chashechnikov Автор вопроса
Vadim Chashechnikov
Да, или архитектура или данные, но я попробовал SA...

В общем, есть параметр который считает целевую энтропию, и я вычислил, что при дефолтных значениях в моей среде, модель получает больше вознаграждения от энтропии, чем её среда ругает за случайные действия, поэтому модель просто начинает действовать рандомно)

Vadim Chashechnikov
В общем, есть параметр который считает целевую энт...

Ну можно какие-нить поправочные веса ввести? Или это и так понятно, а проблема была понять в чем затык?)

Vadim-Chashechnikov Автор вопроса
Mihail Kremlev
Ну можно какие-нить поправочные веса ввести? Или э...

Вангую, проблем будет куча, это одна из них. Одна модель учится 12 часов 1_000_000 шагов.

Похожие вопросы

Обсуждают сегодня

я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
49
30 BCH videos in Hausa Language successfully delivered. In December 2023, I created a Flipstarter to produce Bitcoin Cash videos in the Hausa language for greater outreach an...
Munnir
5
читать файл максимально быстро? странный вопрос))
zamtmn
53
Интересно, а майкрософт 365 может запустится на линукс минт?
Лисицка
17
Всем доброго вечера! Хочу поделиться своим злоключением с человеком, который, как оказалось сюда тоже скидывал свое резюме. Жаль, что я вашу группу не нашел раньше… человек ки...
Роман Ахмедзянов
4
How to create an OS in C? what to study?
Linus
18
Компания Elif ищет менеджера проектов, который будет заниматься поиском и ведением новых проектов. Прежде чем приступить к работе, вам нужно пройти наш недельный курс, где вы ...
Elif
5
братва! где куличи брать?
Alöscha
25
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
@admin main apna email bhul Gaya number se kasy login kare Wazirx ?
Shamim Iqbal
14
Карта сайта