не так с постановкой/входными данными/архитектурой сети. Как ведет себя loss на обучающей и на валидации с дропом и без него? Какой критерий останова и на какой момент вы оцениваете loss? Не деградирует ли сеть в NaN?
Loss ведёт себя как при нормальном оверфите --- сначала трейн/валидация убывают, потом трейн убывает, а валидация начинает возрастать; даже если я валидируюсь на том же трейне, но без дропаута
Обсуждают сегодня