мини-батчам для случаев, когда батч целиком не влезает в память GPU (типа как Accumulating Gradients для мини-батчевого SGD)?
Или хотя бы, как правильно для этой проблемы ключевую фразу задать на английском, чтобы в Гугле поискать? "Batch normalization for large batch sizes"?
GroupNormalization https://arxiv.org/abs/1803.08494
Обсуждают сегодня