172 похожих чатов

Привет! Например, у меня есть кластер с 2 группами нод, 1

группа это легкие ноды с небольшим кол-вом ресурсов для запуска фронтенда, 2 группа – мощные машинки с кучей ядер для ML.

В идеале мне бы хотелось, чтобы количество мощных машинок сокращалось до 0 и не тратились деньги, когда они не используются, а если поступает запрос на ML, то новая мощная нода поднималась бы хотя бы секунд за 30.

Возможно ли это?

20 ответов

32 просмотра

Да

.sha- Автор вопроса
George Gaál
Да

читаю доку к cluster-autoscaler, но там есть упоминания “мы ожидаем, что новая нода будет поднята в течение 15 минут” – от чего зависит скорость поднятия новой ноды? Только от облачного провайдера, на котором мой кластер запущен?

.sha
читаю доку к cluster-autoscaler, но там есть упоми...

В том числе, но если у тебя Амазон - я бы рекомендовал karpenter

.sha- Автор вопроса
George Gaál
В том числе, но если у тебя Амазон - я бы рекоменд...

А почему карпентер? Мы юзаем обычный автоскейлер и он с амазоном работает норм, но думаем переходить потому что карпентер поддерживает podSpreadConstraints. Почему именно для амазона рекомендуешь?

Kirill Garbar
А почему карпентер? Мы юзаем обычный автоскейлер и...

Потому что карпентер гораздо более гибкий

Kirill Garbar
А почему карпентер? Мы юзаем обычный автоскейлер и...

Хотя бы потому что карпентер поднимает ноду за минуту

Igor
Хотя бы потому что карпентер поднимает ноду за мин...

Честно говоря я думал, что это зависит в основном от облака, а не автоскейлера. Но учту, спасибо

Kirill Garbar
Честно говоря я думал, что это зависит в основном ...

Конечно от облака) Чудес не бывает. Просто карпентер реагирует на "ситуацию" намного быстрее. И ещё там основное отличие в том, что он оперирует просто нодами, а не асг

Sebor▂▅▇█▓▒░
Конечно от облака) Чудес не бывает. Просто карпент...

Понял. Т.е. при переходе на него надо будет не только другой компонент задеплоить, но и логику создания кластера поменять. Т.е. быстрее может быть как раз за счёт того, что не добавляется задержка реакции автоскейлинг группы

Нравится фраза секунд за 30)

=) да, тоже порадовало увы, даже AWS Fargate который специально делали для быстрого старта это 60-90 секунд в AWS EKS + karpenter новая нода стартует минуты 3-10 а если очень жирная. то может и не стартовать вообще если в регионе таких машин нет а зачем вам куча CPU ядер? для ML же GPU больше нужен или у вас там много подготовки на CPU?

Мы используем pause pods чтобы всегда иметь фиксированное количество нод в резерве без нагрузки.

Anton Chaporgin
Мы используем pause pods чтобы всегда иметь фиксир...

Это поды которые сами генерят нагрузку?

A
Это поды которые сами генерят нагрузку?

да. они занимают ноду, чтобы даунскейлинг не произошел

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта