модель, и мне не хватает 16 гигов на одной видюхе. Опчитавшись про модненькие GPU V100, что для них на серверах предусмотрены NVSwitch для межпроцессорной коммуникации, у меня в голове сложилось мнение, что несколько GPU V100 работают и видимы для процесса как одна большая видеокарта, и никаких дополнительных телодвижений делать не надо чтоб модель жила сразу на нескольких видюхах. Но недавний эксперимент с aws инстансом на 4 видеокарты показал что это не так. В nvtop я вижу 4 отдельных видюхи. Из них грузится под завязку только одна, и потом процесс вылетает на memory_allocation. Есть ли возможность реализовать параллелизм без плясок с бубном, ручным разбиением модели по GPU с помощью with tf.device или всяких хороводов? При том что ни то ни другое не реализует настоящий параллелизм.
У меня такая же проблема, похоже что нельзя, линки между видяхами просто ускоряют копирование памяти между ними судя по всему. Хоровод єто к слову дата паралелізм, а не модел. Торч вроде имеет готовіе механізмі паралелизации
Обсуждают сегодня