Linux в Google Compute Engine?
2. Как проще всего "закэшировать" определенный docker image (nvcr.io/nvidia/pytorch:23.08-py3 весом в 30гб) в machine image? Чтобы при старте новой воркер-ноды образ не нужно было пуллить
Уже от безысходности думаю сделать свой кластер вместо GKE, поскольку сейчас при автоскейлинге даже с Image Streaming Pull запуск нового пода для инференса ML модели, который триггерит запуск новой виртуалки, занимает около 8 минут.
а не проще создать свой образ уже со встроенным докер образом и использовать его ?
Всем привет. Я тут опять со своей болью с большми ML образами. Настроил автоскейлинг на self-managed Talos кластере в GCE, осталось решить вопрос с pulling'ом образов. Видел есть такие штуки как Dragonfly2, kraken, stargz, Nydus. Не особо пока разобрался что есть что и для чего нужно. А есть что-нибудь наподобие общего сетевого диска или NFS, который бы хранил в себе уже распакованные слои образа и при старте новой виртуалки под бы стартовал без pulling'a вовсе?
У gcp же есть Filestore
да, но чтобы была норм скорость надо платить минимум 700 евро в месяц)
Можно через грабли с фринас 🤣
да, тоже думал об этом
стартуй новую виртуалку сразу с готовыми образами
Тогда будет дешево и сердито на ссд
вот кажется что это будет самый быстрый вариант, но непонятно как в Talos image запуллить образ заранее
в AWS есть механизм warm pool, не знаю, можно ли это реализовать в GCE+Talos https://docs.aws.amazon.com/autoscaling/ec2/userguide/ec2-auto-scaling-warm-pools.html
там идея простая. В группе поднимается новый инстанс, присоединяется к кластеру, пуллит образы, а потом останавливается. В момент, когда нужно новый под зашедулить, инстанс быстро поднимается и уже готов.
в Google Cloud такого нет(
и что такое 700 эвро для фирмы
дело в том, что 700 евро заплатишь, только проблему это сильно не решит
это уже другое дело
Обсуждают сегодня