а что вообще люди сейчас думают по поводу того, что градиентные спуски только для выпуклых функций работают?
слушайте, а вот пару лет назад была замечательная статья, где авторы поняли, что всякие resnet это просто метод Эйлера, подставили вместо него Рунге-Кутта и получили лучше схо...
почему нельзя? Кодирование это такая же функция, которую можно было бы выучить
и мы считаем, что достаточно глубокая сеть может почти любой набор точек в высокомерном пространстве разделить?
ну так может если их выпуклее делать, то они лучше работать будут?
ну или сказать, что xor нельзя выучить, потому что... Не знаю почему. Недостаточно гладкая функция?
то есть вы мне хотите сказать, что перевод числа в двоичную систему это сложная операция?
а какой вывод, если тезисно?