Гайз, подскажите как лучше делать. У меня есть стохастическая полиси, вида N(mu(s), sigma2(s)), где mu и sigma это выходы нейронки. Но в среде допустимы действия только от -1....
Как в питорче перемножить тензоры размеров [B, d1] и [B, d2] и получить тензор размера [B, d1, d2]?
просто, кмк, дефалт боксы можно генерить на лету, но их scale и aspect ratio менять будет нельзя, потому что сеть выучит под фиксированный размер. По этому никакого смысла их ...
С нестационарной средой будет туго. Как описывается состояние? Тебе известна примерная длинна эпизода? Динамика среды меняется в процессе эпизода или и между эпизодами?
постановка задачи странная, не очень понятно что именно нужно. Ты всегда сравниваешь новые сэмплы с теми 10_000, которые уже есть?
По теме: тут учил кто-то BERT?
Правильно ли я понимаю, новый титан считает почти в 10 раз _быстрее_ чем 1080ti?
Потому что yolo на имаджнете обучен, но не все задачи похожи на имаджнет?
а где именно UT используют? По ощущениям UT работает хуже обычного трансформера, и в статьях тоже особо не упоминается
Не очень понятно что за "кастомные трансформеры" вы обсуждаете. Модельку из аттеншенов или что-то другое?
А что такое filter_size? Размер ядра свертки?
А если подать на вход SSD картинку сильно большего размера, то она не найдет объекты больше чем макс. размер на том разрешении, на котором учили?
очень разнородные параметры чего? Погугли triplet loss, может быть поймешь, нужно оно тебе или нет
Кстати, про техники. Для DQN есть куча всего, в смысле улучшений, например Радуга и все такое. А есть ли аналоги для A3C/PPO?
А почему именно в Диабло?
Человек пнул мячик. Решает ли мячик какое-либо уравнение? Нет. Описывается ли движение мячика каким-либо уравнением?
Ну значит невнимательно читал, хах Что значит "шум" в этом контексте?
Гайз, кто-нибудь знает зачем использовать Gumbel softmax при тренировке дискретных ганов?
потому что в статье написано как они собирали данные?
то есть каждый новый тебе нужно сравнивать со всеми предыдущими?