w и размерностью [in_dim, out_dim]. Как получить градиенты по весам?
пусть выход с предыдущего слоя и вход в слой ‘a’, а градиенты пришедшие с следующего слоя ‘grads’. размерность a = [b, in_dim], размерность градиентов = [b, out_dim].
Ну здесь везде есть b = batch_size
Так ты предлагаешь клипать градиенты активаций?
тут вопрос в реализации. просто придётся вмешиваться теперь не в оптимайзер, а ещё и в слои. видно поэтому они это и не сделали
Типа переписать куда (или ТПУ) кернелы чтобы клипать градиенты в процессе вычисления?)
зачем так сложно. можно сделать слой, который в прямом распространении f(x) = x а в обратном f(grads) = hardtanh_parametrized(grads, param)
Ну это опять таки градиенты активации клипать
согласен, мне тоже не очень нравится ) я про третий пункт
Обсуждают сегодня