Народ, а расскажите как выходить из ситуации. тестовый кластер куба 1.18

Question

Народ, а расскажите как выходить из ситуации. тестовый кластер куба 1.18

на виртуалках, задеплоено в него куча всякого системного типа OpenEBS, FluxCD, Traefik Ingress, Vicrtoria Metrics и т.п.
плюс раскатано само приложение.

после проблем на хостинге виртуалки на какое-то время потеряли связь со стораджем, и как я понял, куб начал перезапускать поды считая их неживыми (что логично), и до решения проблем успел наплодить несколько сотен подов.
Что привело к Disk Pressure на рабочих нодах, kubelet повесил на них соответствующий taint, и все встало вообще раком.
контроллеры все еще пытаются запускать поды, поды висят в Pending, потом становятся Evicted, и таким образом, когда я добрался до кластера (напоминаю он тестовый), там уже было тысячи под три Evicted подов на три рабочие ноды. 🙂

Окей, очистка скриптом Evicted подов и ручное снятие Disk Pressure таинта не помогат, кубелет опять его вешает.
вроде бы даже успевает что-то успешно запуститься, но в целом все как стояло раком, так и стоит.
полный ребут кластера не помог.

что делать то? 🙂

#devops #kubernetes #programming #russian

0

18.12.2020

1 ответов

42 просмотра

Denis Banschikov · Accepted Answer

Недавно коллеги обращались с подобной проблемой. Пришлось делать downscale всех деплоиментов в кластере. Потом когда все ноды пришли состояние ready, начал запускать каждый компонент поэтапно. Как коллеги посоветовали выше выставите реквесты и лимиты, а так же affinity правила

172 похожих чатов

Народ, а расскажите как выходить из ситуации. тестовый кластер куба 1.18

1 ответов

Похожие вопросы