Господа, вопрос про производительность тренеровки: Файнтюню модельку на pytorch, модель большая

Question

Господа, вопрос про производительность тренеровки: Файнтюню модельку на pytorch, модель большая

но хочу обновить только несколько слоёв. Сначала делал это на RTX3090 , потом думаю дай зафигачу на a6000 с большим batch size, чтобы ускорить и тут вылезли интересные грабли. На графике время прогона одной эпохи в зависимости от batch size и железа.

После batch size > 6 у RTX3090 кончается память, а у A6000 при batch size >7 вылезает интересная ошибка, сейчас к делу не относится.
Вопрос - почему после batch size > 4 скорость так сильно падает?
pytorch 2.0.1 , python 3.10

#database #programming #russian #software

0

06.09.2023

3 ответов

35 просмотров

Vladimir F Автор вопроса

Господа, а что такое aten::_local_scalar_dense и aten::item , и почему при увеличении batch size, эти штуки начинают выполнятся в 17 раз медленнее ? Прогнал тут трейнинг через pytorch.profile

0

06.09.2023