Теперь большинство workload подов падают по OOMkilled (137), раньше им этих ресурсов хватало, с чем это может быть связано?
Проверяй NamespaceQuota, PDB и прочее подобное. Есть шанс что у тебя задвоило репликасеты с запуском одновременно двух
Облако или барметл?
Bar&Metal=Bare Metal :)
могу вангануть что джава апки падают, и связано это с изменением cgroup c v1 на v2 а джава у вас старая и не могет нормально в лимиты
Ну могу ещё предположить, что у тебя ранее была версия 1.23. Если так, то посмотри на ивенты связанные с pv и в логи ebs-csi контроллера.
с какой версии обновлял ?
с 1.24 до 1.25 вчера, до 1.26 сегодня этот кластер когда-то давно был 1.18, может еще ниже
ничего особого не увидел, а как это может быть связано?
кажется, что проблема в этом
и на 1.25 все работало нормально ?
да, такого не было The Kubernetes 1.26 variants will be the first to default to using cgroup v2: https://github.com/bottlerocket-os/bottlerocket/discussions/2874
Обсуждают сегодня