При SFTTrainer трейне LLAMA, размещенной на двух gpu сначала грузится

Question

одна GPU, потом другая и так весь трейн. Это нормальное поведение или что-то надо допилить в конфиге?

#nlp #programming #russian

0

09.08.2023

41 просмотр

так вроде всегда сразу два грузятся по 100% при других трейнах

0

09.08.2023

и они делают что?… параллельно обратывают разные примеры? тогда это в ddp, см https://huggingface.co/blog/pytorch-ddp-accelerate-transformers

0

09.08.2023

а как вы считаете будет ли адекватным все таки последние слои обучать исли с лорой не выходит?

0

09.08.2023

Ilya Gusev · Accepted Answer

так а как хочется-то?

0

09.08.2023