ошибки пространства параметров модели?
Услышал это здесь (ссылка с тайм-кодом) https://youtu.be/egvX1wGCKSg?t=2044 , но автор только упомянает про это. Хотелось бы развёрнутое разъяснение
Скипконнекшн сглаживает функцию ошибки в пространстве параметров, потому что в начале обучения модель ведёт себя так, как будто у нее меньше слоев. Как будто она проще. Уже потом, по ходу обучения, она усложняется, чтобы уловить более сложные зависимости. Это кратко.
Так а что нам это "сглаживание" даёт? Типа, запоминание информации, как в рекурентных сетях?
Нет. Градиентные методы обучения двигаются по поверхности ошибки, стараясь найти глобальный (или оптимальный) минимум. Если поверхность "шершавая" - труднее понять, куда двигаться. А если поверхность гладкая - проще понять, куда двигаться. То есть - обучение происходит быстрее. Помимо поверхности, скипконнекшены помогают решить проблемы gradient exploding / vanishing. Да и градиенты распространяются лучше во время backpropagation через скипконнекшены.
Обсуждают сегодня