потому что благодаря нему лосс лучше сходится? потому что фактически мы же делаем в n раз меньше трейнинг степов и получается и учимся меньше за то же время, то есть медленнее. До какого "искуственного" размера батча адекватно это вообще делать? Зависит ли это от числа классов, если тюнишь на классификацию?
вот это можно почитать для информации https://openreview.net/forum?id=B1Yy1BxCZ
зарядил lr*4, accumulation*4, посмотрим, спасибо)
Ну и аккумулейшн применяется только после того, как в память gpu батч помещаться перестал.
Обсуждают сегодня