одному кадру на основе Xception. Когда реализовал CNN-RNN (даже с добавлением начального решения в качестве одного из признаков) результат оказался много хуже даже начального решения. Подскажите, пожалуйста, почему может быть так? В какую сторону думать, что попробовать? Сейчас переделываю под трансформер.
Я довольно малоопытен, оттого любой фидбек от анекдота до совета расцениваю как манну небесную.
Можно я "подниму" свой вопрос?) Может, кто-нибудь поможет или подскажет, как правильнее было бы сформулировать вопрос
Есть сетки, специально сделанные для видео. Можно посмотреть на paperwithcode сетки по action recognition
регрессия по видео в принципе слаборешаемая задача. пробуйте реснет как бэкбон. rnn в принципе слабая архитектура... пробуйте для начала среднее по минутам. все это как вариант на заданных исходных
да, я понимаю про слаборешаемость. в моем случае не нужна высокая точность. большое спасибо за совет. не знаю, стило ли уточнять что использую не чистую rnn, а gru. что вы имеете в виду в среднем по минутам? в любом случае, у меня входные данные в 232 кадра, боюсь, тут не поможет
Обсуждают сегодня