в нем 4 машины (на каждой по 2 ГПУ 1080ti), подключены к сети. Еще будет сетевое локальное хранилище для датасетов (допустим 5 ТБ).
Очень хотелось бы настроить простой трейнинг-менеджер, чтобы можно было через cli/gui запушить в очередь трейнинг-джобы, и они распределились бы по свободным машинам, а если все заняты - то стояли в очереди пока хоть одна не освободится. Поискал в интернете - нашел много тулзов, но нигде не увдел конкретно такой фичи. Пока что по описанию понравился Kubeflow и Studio.ML.
Может будут рекомендации или куда посмотреть? Спасибо
Я так понял тут проще написать свой компонент на питоне, который будет мониторить запуск через Rest Api. Или попробовать PySpark, не знаю на сколько он эффективно паралелит обучение и управляет задачами, я не копал глубоко, но в нем работа с кластером в базе.
Обсуждают сегодня