отображает некоторое входное пространство в область X1, а второй в X2. Распространяем ошибку назад, в итоге первый слой отображает в смещенное пространство dX1 а второй слой его в dX2. Но проблема в том, что второй слой учился распространять ошибку обтимально из X1, а не из dX1. Как это решается - нормализацией. Вычитается мат.ожидание, делится на стандартное отклонение, вроде...
Так вот в чем вопрос: надо, наверное, это делать после каждого слоя, нет? Однако если посмотреть на архитектуры... дай Бог такое происходит 1 раз. Почему?
Конкретную архитектуру в студию! В моем любимом денснете батчнормы перед каждым слоем
Обсуждают сегодня