но хочу обновить только несколько слоёв. Сначала делал это на RTX3090 , потом думаю дай зафигачу на a6000 с большим batch size, чтобы ускорить и тут вылезли интересные грабли. На графике время прогона одной эпохи в зависимости от batch size и железа.
После batch size > 6 у RTX3090 кончается память, а у A6000 при batch size >7 вылезает интересная ошибка, сейчас к делу не относится.
Вопрос - почему после batch size > 4 скорость так сильно падает?
pytorch 2.0.1 , python 3.10
https://pytorch.org/cppdocs/ такое ощущение что это откуда-то отсюда
А что за моделька кстати?
Обсуждают сегодня