Посоны, хотел бы опять поднять тему model parallelism-а. Пытаюсь файнтюнить

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Посоны, хотел бы опять поднять тему model parallelism-а. Пытаюсь файнтюнить

модель, и мне не хватает 16 гигов на одной видюхе. Опчитавшись про модненькие GPU V100, что для них на серверах предусмотрены NVSwitch для межпроцессорной коммуникации, у меня в голове сложилось мнение, что несколько GPU V100 работают и видимы для процесса как одна большая видеокарта, и никаких дополнительных телодвижений делать не надо чтоб модель жила сразу на нескольких видюхах. Но недавний эксперимент с aws инстансом на 4 видеокарты показал что это не так. В nvtop я вижу 4 отдельных видюхи. Из них грузится под завязку только одна, и потом процесс вылетает на memory_allocation. Есть ли возможность реализовать параллелизм без плясок с бубном, ручным разбиением модели по GPU с помощью with tf.device или всяких хороводов? При том что ни то ни другое не реализует настоящий параллелизм.

#database #programming #russian #software

0

02.02.2020

1 ответов

29 просмотров

Alex Surname · Accepted Answer

Alex Surname

У меня такая же проблема, похоже что нельзя, линки между видяхами просто ускоряют копирование памяти между ними судя по всему. Хоровод єто к слову дата паралелізм, а не модел. Торч вроде имеет готовіе механізмі паралелизации

0

02.02.2020

215 похожих чатов

Посоны, хотел бы опять поднять тему model parallelism-а. Пытаюсь файнтюнить

1 ответов

Похожие вопросы