как происходит градиентный спуск. Там же получается нужно добавить к каждому весу поправку равную функции всей сети дифференцированную по этому весу ? Как это программно реализуется? Не дифференцировать же всю функцию сети
Реализуется через формулы дифференцирования сложной функции
Дифференцировать)
Дифференцируешь все слои, только в обратном порядке - с выходного к входному и отнимаешь от весов получившиеся дифференциалы умноженные на шаг обучения
О, вот так попонятнее стало
на здоровье🙏🏻
Обсуждают сегодня