Как в итоге происходит обучение по батчу? Если есть градиент по батчу и он равен сумме градиентов по семплам внутри батча, то это не то же самое, как в обычной сети
А как в обычной сети?))
Обсуждают сегодня