Гайз, подскажите как лучше делать. У меня есть стохастическая полиси, вида N(mu(s), sigma2(s)), где mu и sigma это выходы нейронки. Но в среде допустимы действия только от -1....
Как в питорче перемножить тензоры размеров [B, d1] и [B, d2] и получить тензор размера [B, d1, d2]?
просто, кмк, дефалт боксы можно генерить на лету, но их scale и aspect ratio менять будет нельзя, потому что сеть выучит под фиксированный размер. По этому никакого смысла их ...
С нестационарной средой будет туго. Как описывается состояние? Тебе известна примерная длинна эпизода? Динамика среды меняется в процессе эпизода или и между эпизодами?
постановка задачи странная, не очень понятно что именно нужно. Ты всегда сравниваешь новые сэмплы с теми 10_000, которые уже есть?
По теме: тут учил кто-то BERT?
Правильно ли я понимаю, новый титан считает почти в 10 раз _быстрее_ чем 1080ti?
Потому что yolo на имаджнете обучен, но не все задачи похожи на имаджнет?
а где именно UT используют? По ощущениям UT работает хуже обычного трансформера, и в статьях тоже особо не упоминается
Не очень понятно что за "кастомные трансформеры" вы обсуждаете. Модельку из аттеншенов или что-то другое?
А что такое filter_size? Размер ядра свертки?
А если подать на вход SSD картинку сильно большего размера, то она не найдет объекты больше чем макс. размер на том разрешении, на котором учили?
А почему именно в Диабло?
очень разнородные параметры чего? Погугли triplet loss, может быть поймешь, нужно оно тебе или нет
Кстати, про техники. Для DQN есть куча всего, в смысле улучшений, например Радуга и все такое. А есть ли аналоги для A3C/PPO?
Человек пнул мячик. Решает ли мячик какое-либо уравнение? Нет. Описывается ли движение мячика каким-либо уравнением?
Ну значит невнимательно читал, хах Что значит "шум" в этом контексте?
Гайз, кто-нибудь знает зачем использовать Gumbel softmax при тренировке дискретных ганов?
потому что в статье написано как они собирали данные?
то есть каждый новый тебе нужно сравнивать со всеми предыдущими?