(fairseq, если это кому-то что-то скажет), обучаю на нескольких GPU через torch.distributed. Воркеры запускаются через torch.multiprocessing.spawn, поэтому pdb тут вроде как не подходит, так как он скажет, где ^C-шнулся основной процесс, а это и так известно.
Дебажить принтами)
Обсуждают сегодня