172 похожих чатов

Народ, а расскажите как выходить из ситуации. тестовый кластер куба 1.18

на виртуалках, задеплоено в него куча всякого системного типа OpenEBS, FluxCD, Traefik Ingress, Vicrtoria Metrics и т.п.
плюс раскатано само приложение.

после проблем на хостинге виртуалки на какое-то время потеряли связь со стораджем, и как я понял, куб начал перезапускать поды считая их неживыми (что логично), и до решения проблем успел наплодить несколько сотен подов.
Что привело к Disk Pressure на рабочих нодах, kubelet повесил на них соответствующий taint, и все встало вообще раком.
контроллеры все еще пытаются запускать поды, поды висят в Pending, потом становятся Evicted, и таким образом, когда я добрался до кластера (напоминаю он тестовый), там уже было тысячи под три Evicted подов на три рабочие ноды. 🙂

Окей, очистка скриптом Evicted подов и ручное снятие Disk Pressure таинта не помогат, кубелет опять его вешает.
вроде бы даже успевает что-то успешно запуститься, но в целом все как стояло раком, так и стоит.
полный ребут кластера не помог.

что делать то? 🙂

1 ответов

4 просмотра

Недавно коллеги обращались с подобной проблемой. Пришлось делать downscale всех деплоиментов в кластере. Потом когда все ноды пришли состояние ready, начал запускать каждый компонент поэтапно. Как коллеги посоветовали выше выставите реквесты и лимиты, а так же affinity правила

Похожие вопросы

Обсуждают сегодня

А как старый хаскел с новым стыковать ? потому как тут работает https://play.haskell.org/saved/C3xpMzcd, а вот тут https://stepik.org/lesson/7602/step/9?unit=1473 нет ошибка C...
Fedor
75
Как Вы считаете нормально ли в двадцатых годах 21 века в ВУЗах Российской Федерации обучать студентов работе с TASM? Не слишком ли это "архаично"? (Если оффтоп или флейм для э...
Spiker01
39
Всем привет! поделитесь, пож-та, как кто дебажил / решал проблему с 504 Time out ошибкой от nginx, когда стучишься на свой vapor сервер? в логах /var/log/nginx/error.log е...
Paul
24
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Комрады, хотел уточнить. Проперть в OnDestroy юнита-хозяина по-прежнему доступна? И еще уточнение: finalization юнита наступает раньше или позже OnDestroy?
Ed Doc
48
Я тут пытаюсь переработать архитектуру подсистемы памяти ядра во что-то осмысленное. Есть pmm, который создает набор range’ей(пока что только для ядра, потом для юзерспейса), ...
Evg Resh
15
Вопрос, вот задание https://stepik.org/lesson/7602/step/9?unit=1473 вот код и ошибка, удивляет, что требуется еще и Semigroup так и должно быть, или я опять делаю ошибки ? htt...
Fedor
14
Проблема с Windows scripting control Множество объектов получают iDispatch обертки и отдаются в скрипты. При этом скрипты могут эти обертки держать живыми очень долго, наприм...
Arioch The
16
Вообще, меня бы даже такой вариант, наверное устроил бы: try tag.Read(0); finally end; Но этот AV не ловится и программа завершается Exception EAccessViolation in module C...
notme
12
Скажите, можно ли как-то "переместить" динамический массив из одной переменной в другую? Скажем, переместить из TList<> в TArray<>. Именно переместить, а не скопировать. Если ...
Eugene Krasnikov (ᴊɪɴ x)
37
Карта сайта