Всем привет. 1. Чем лучше всего реализовать автоскейлинг кластера на Talos

Question

Всем привет. 1. Чем лучше всего реализовать автоскейлинг кластера на Talos

Linux в Google Compute Engine?
2. Как проще всего "закэшировать" определенный docker image (nvcr.io/nvidia/pytorch:23.08-py3 весом в 30гб) в machine image? Чтобы при старте новой воркер-ноды образ не нужно было пуллить

Уже от безысходности думаю сделать свой кластер вместо GKE, поскольку сейчас при автоскейлинге даже с Image Streaming Pull запуск нового пода для инференса ML модели, который триггерит запуск новой виртуалки, занимает около 8 минут.

#devops #kubernetes #programming #russian

0

31.08.2023

16 ответов

42 просмотра

Max Makarov Автор вопроса

Всем привет. Я тут опять со своей болью с большми ML образами. Настроил автоскейлинг на self-managed Talos кластере в GCE, осталось решить вопрос с pulling'ом образов. Видел есть такие штуки как Dragonfly2, kraken, stargz, Nydus. Не особо пока разобрался что есть что и для чего нужно. А есть что-нибудь наподобие общего сетевого диска или NFS, который бы хранил в себе уже распакованные слои образа и при старте новой виртуалки под бы стартовал без pulling'a вовсе?

0

05.09.2023

George Gaál

Max Makarov
Всем привет. Я тут опять со своей болью с большми ...

nope

0

05.09.2023

Jürgen Romins

У gcp же есть Filestore

0

05.09.2023

Max Makarov Автор вопроса

Jürgen Romins
У gcp же есть Filestore

да, но чтобы была норм скорость надо платить минимум 700 евро в месяц)

0

05.09.2023

Jürgen Romins

Max Makarov
да, но чтобы была норм скорость надо платить миним...

Можно через грабли с фринас 🤣

0

05.09.2023

Max Makarov Автор вопроса

Jürgen Romins
Можно через грабли с фринас 🤣

да, тоже думал об этом

0

05.09.2023

Andrey Kartashov

Max Makarov
Всем привет. Я тут опять со своей болью с большми ...

стартуй новую виртуалку сразу с готовыми образами

0

05.09.2023

Jürgen Romins

Max Makarov
да, тоже думал об этом

Тогда будет дешево и сердито на ссд

0

05.09.2023

Max Makarov Автор вопроса

Andrey Kartashov
стартуй новую виртуалку сразу с готовыми образами

вот кажется что это будет самый быстрый вариант, но непонятно как в Talos image запуллить образ заранее

0

05.09.2023

Andrey Kartashov

Max Makarov
вот кажется что это будет самый быстрый вариант, н...

в AWS есть механизм warm pool, не знаю, можно ли это реализовать в GCE+Talos https://docs.aws.amazon.com/autoscaling/ec2/userguide/ec2-auto-scaling-warm-pools.html

0

05.09.2023

Andrey Kartashov

Andrey Kartashov
в AWS есть механизм warm pool, не знаю, можно ли э...

там идея простая. В группе поднимается новый инстанс, присоединяется к кластеру, пуллит образы, а потом останавливается. В момент, когда нужно новый под зашедулить, инстанс быстро поднимается и уже готов.

0

05.09.2023

Max Makarov Автор вопроса

Andrey Kartashov
там идея простая. В группе поднимается новый инста...

в Google Cloud такого нет(

0

05.09.2023

Alex Domoradov

Max Makarov
да, но чтобы была норм скорость надо платить миним...

и что такое 700 эвро для фирмы

0

05.09.2023