одна GPU, потом другая и так весь трейн. Это нормальное поведение или что-то надо допилить в конфиге?
так а как хочется-то?
так вроде всегда сразу два грузятся по 100% при других трейнах
и они делают что?… параллельно обратывают разные примеры? тогда это в ddp, см https://huggingface.co/blog/pytorch-ddp-accelerate-transformers
а как вы считаете будет ли адекватным все таки последние слои обучать исли с лорой не выходит?
Обсуждают сегодня