если можна просто AE
А, перепутал VAE и AE)) Примерная архитектура: input -> (framewise representation via 2D convolutions) -> (BRNN / Conv1D / Attention) -> (Frame importancy) -> (Differentiable sampling) -> (interpolation) После (Frame importancy) получаем набор из вероятностей выбрать конкретный кадр, далее семплируем из этого распределения K кадров (если было N, то параметр сжатия N/K). Далее в простейше случае линейная интерполяция, а в более сложном - пройтись 3D свертками, например.
Так тоже можно
Обсуждают сегодня