свертки 1х1 используются в 2х случаях: перемешивание каналов и приведение каналов к нужной размерности
А в чем смысл применять групповую 1x1 после обычной 1x1, кроме доолнительной нелинейности(хотя во 2 и 3 случае там нет relu между ними)? Ведь если мы делаем обычную 1x1, то каналы между группами тоже перемешиваются
ну видимо в том и прикол - перемешиваются не все каналы, а каналы внутри групп
Нет, в обычной то свертке суммируются то все каналы
ну, а в групповой?
Обсуждают сегодня