= NodeAffinity . У describe в events ничего нет, log недоступен потому что под уже не работает. Как можно понять почему произошло NodeAffinity ? С чем это может быть связано?
Или баг: https://github.com/kubernetes/kubernetes/issues/92067 Или сменились лейблы у ноды и kubelet изгнал неподходящий Pod с ноды.
не похоже, лейблы не менялись. Всё работает, потом все жалуются что стало тормозить, а потом обнаруживается NodeAffinity. Видимо ресурсов каких-то не хватает. Но мониторинга там нет никакого. Поэтому вопрос, можно ли это как-то еще диагностировать, без мониторинга?
в логах kube-controller-manager посмотрите
Есть предположение, что они и не начинали работать. а кто-то задеплоил новый манифесте с кривым Nodeaffinity/ Вообще можно долго гадать.... надо смотреть вывод get pod -o yaml в раздел статус. сравнивать аффинити в манифестах подов и на узлах, смотреть статусы узлов, может у вас там часть узлов испытывает недостаток в диска-памяти...
Первый пункт успешно заигнорен был, верно?
почему, я почитал, заявлено в версии 1.18.3 , в какой версии это исправлено я не понял, у меня 1.19.3
Не было патч релиза с бэкпортом ещё. Мы тоже ловим и ждём.
Само собой. у людей переполнение очень быстро наступает. особенно, когда они ничего не понимаю в том, о чем спрашивают. я стараюсь задавать вопросы по одному и как можно более простые. когда добрый и не токсичный )))
в 1.19.3 есть еще один неприятный баг с тем что на упавшую ноду не ставится тайнт с NoExecute, и поды не удаляются с упавшего узла... судя по тому, что у вас новые ноды часто появляются - вас это тоже может затронуть.
Обсуждают сегодня