на виртуалках, задеплоено в него куча всякого системного типа OpenEBS, FluxCD, Traefik Ingress, Vicrtoria Metrics и т.п.
плюс раскатано само приложение.
после проблем на хостинге виртуалки на какое-то время потеряли связь со стораджем, и как я понял, куб начал перезапускать поды считая их неживыми (что логично), и до решения проблем успел наплодить несколько сотен подов.
Что привело к Disk Pressure на рабочих нодах, kubelet повесил на них соответствующий taint, и все встало вообще раком.
контроллеры все еще пытаются запускать поды, поды висят в Pending, потом становятся Evicted, и таким образом, когда я добрался до кластера (напоминаю он тестовый), там уже было тысячи под три Evicted подов на три рабочие ноды. 🙂
Окей, очистка скриптом Evicted подов и ручное снятие Disk Pressure таинта не помогат, кубелет опять его вешает.
вроде бы даже успевает что-то успешно запуститься, но в целом все как стояло раком, так и стоит.
полный ребут кластера не помог.
что делать то? 🙂
Недавно коллеги обращались с подобной проблемой. Пришлось делать downscale всех деплоиментов в кластере. Потом когда все ноды пришли состояние ready, начал запускать каждый компонент поэтапно. Как коллеги посоветовали выше выставите реквесты и лимиты, а так же affinity правила
Обсуждают сегодня