группа это легкие ноды с небольшим кол-вом ресурсов для запуска фронтенда, 2 группа – мощные машинки с кучей ядер для ML.
В идеале мне бы хотелось, чтобы количество мощных машинок сокращалось до 0 и не тратились деньги, когда они не используются, а если поступает запрос на ML, то новая мощная нода поднималась бы хотя бы секунд за 30.
Возможно ли это?
Да
читаю доку к cluster-autoscaler, но там есть упоминания “мы ожидаем, что новая нода будет поднята в течение 15 минут” – от чего зависит скорость поднятия новой ноды? Только от облачного провайдера, на котором мой кластер запущен?
В том числе, но если у тебя Амазон - я бы рекомендовал karpenter
у меня yandex cloud, они используют autoscaler
А почему карпентер? Мы юзаем обычный автоскейлер и он с амазоном работает норм, но думаем переходить потому что карпентер поддерживает podSpreadConstraints. Почему именно для амазона рекомендуешь?
амазоном писанный для амазона)
Потому что карпентер гораздо более гибкий
Хотя бы потому что карпентер поднимает ноду за минуту
Честно говоря я думал, что это зависит в основном от облака, а не автоскейлера. Но учту, спасибо
Конечно от облака) Чудес не бывает. Просто карпентер реагирует на "ситуацию" намного быстрее. И ещё там основное отличие в том, что он оперирует просто нодами, а не асг
Понял. Т.е. при переходе на него надо будет не только другой компонент задеплоить, но и логику создания кластера поменять. Т.е. быстрее может быть как раз за счёт того, что не добавляется задержка реакции автоскейлинг группы
Нравится фраза секунд за 30)
=) да, тоже порадовало увы, даже AWS Fargate который специально делали для быстрого старта это 60-90 секунд в AWS EKS + karpenter новая нода стартует минуты 3-10 а если очень жирная. то может и не стартовать вообще если в регионе таких машин нет а зачем вам куча CPU ядер? для ML же GPU больше нужен или у вас там много подготовки на CPU?
Мы используем pause pods чтобы всегда иметь фиксированное количество нод в резерве без нагрузки.
И платить за них?
Чудес не бывает
С пониженным прио классом?
Это поды которые сами генерят нагрузку?
да. они занимают ноду, чтобы даунскейлинг не произошел
Обсуждают сегодня