Ребята, кто тоже столкнулся с такой ситуацией (когда переключаешь скрипт на мультигпу и просто намертво виснет), я хотел сказать, что мне помогло поставить переменную окружения NCCL_P2P_DISABLE=1. (Я не понимаю, что она делает, это какие-то нвидиа-мемы, грёбаное колдунство, которое я нашёл в интернете и оно почему-то сработало)
Экспортить перед запуском?
Ага, ну типа NCCL_P2P_DISABLE=1 python3 ваш_скрипт.py
Вроде как отключает пир ту пир общение между гпу(по Pcie) и они начинают общаться через cpu(образуется горлышко). A6000 поддерживает P2P так что лучше его не отключать а искать другие пути
Обсуждают сегодня