Функцию потерь сами писали?
Да, это по курсу DL на пальцах
делишь на ноль где-то, градиент улетает в бесконечность где-то
Или просто улетает ы бесконечность
Спасибо, понял. Буду исправлять
Может и на ноль делишь, но это может произойти только в случае когда приходит нулевой батч, а такое не должно происходить.
Да, просто модуль поставь внутри логарифма и проверь
Или просто градиент улетает в бесконечность
Я сейчас посмотрел, ты же делаешь softmax, он не может отрицательные значения получать после софтмакса. Софтмакс сам писал или используешь готовый?
Обсуждают сегодня