20, 7, 5, 1]
learning rate 0.5
Проходим 20 000 раз по набору картинок 32х32 (cifar). Ищем изображение самолета.
Нейросеть1: relu, relu, relu, sigmoid
Нейросеть2: sigmoid, sigmoid, sigmoid, sigmoid
Почему-то нейросеть2 сходится гораздо быстрее, чем нейросеть1. Уже на 5 000 итерации J=0.00530487006317.
Нейросеть1 на 20 000 итерации дает J=0.364340945939.
Почему так, если relu, ..., relu, sigmoid вроде считается хорошей реализацией? Может ошибку искать?
попробуйте tanh еще
Вот здесь я описал ситуацию, когда сигмоид дал в разы больше перформанс
Обсуждают сегодня