обучить ИНС произвольной архитектуры, например, как на картинке. Зеленый - входной нейрон, синий - выходной, а остальные "скрытные". У каждого скрытого и выходного есть смещение, его значение в углу нарисовано. Также на связях показан их вес. И вот такая архитектура никак не обучается. Реализовано на PyTorch. Правило обновления весов в SGD работает корректно, единственное, может неправильно считается сам градиент автоматически, но это было бы странно.
Я пробовал и другие сетки такой же архитектуры с большим количеством нейронов, но качество от этого выше не становится.
Может тут есть свои подводные камни? Может там есть проблемы из-за глубины? Типа, если посмотреть на граф 50-ти нейронной сети из первого нейрона к выходному, то там получится по дороге 48 активационных функций, и вот типа глубокая НС и ее проблемы. Может такая вообще не обучается. С adam тоже не особо получается обучить
а какую проблему эта НС пытается решить? возможно проблема сложнее чем эта НС может решать впринципе
Обсуждают сегодня