вычисляешь градиент функции. Что будет, если ты домножишь его на слишком большой learning_rate? Правильно, несмотря на то, что направление у тебя будет точно в 0 (куда ты и хочешь попасть), реально ты перелетишь этот 0 - возможно очень сильно.
А если learning rate будет слишком маленький, то сеть застрянет в области субоптимального решения и даже не будет пытаться искать альтернативные решения. Сам такое наблюдал. При большом learning rate сеть ведёт себя как экспериментатор, который пробует много разных вариантов решения (при этом некоторые части старого решения разрушаются), и в конце концов находит лучший. При маленьком learning rate ведёт себя как осторожный консерватор, который застрял в окрестности одного фиксированного решения.
Обсуждают сегодня