том, что сигмоида useless. Могут ли при глубокой сети, несмотря на нормализацию данных, на hidden-слоях вылезти уже не нормализованные числа?
при ее использовании затухают градиенты, так как производная мала при больших значениях на выходе сигмоиды
Обсуждают сегодня