другого алгоритма) путём случайного перебора? Ну, то есть мы абсолютно случайно составляем 1000 комбинаций весов, смотрим, на каком наборе весов метрика ближе всего к минимуму и ставим начальные весе равные этому набору. На первый взгляд, это даёт лучшее начальное приближение и градиентный спуск будет быстрее сходиться и, может даже, в лучшую точку, чем если бы мы каким-то шумом инициализировали. Что думаете об этом?
стартовать со всех 1000 комбинаций будет лучше
А что в книге не почитаешь? Вот в этой, например - http://gen.lib.rus.ec/book/index.php?md5=900D739E4B0305A0422F4DC23E0CC76C Там в начале хорошо про НС написано.
В случае с глубокими сетями выглядит бесполезной затеей
Обсуждают сегодня