обновления, стали поды зависать в статусах Completed, Terminated, OOM Killed.
По эвентам можно увидеть такое:
internal 58m Normal
Killing
pod/npm-6fff8557cd-pjdrp
Stopping container npm
internal 56m Normal
TaintManagerEviction
pod/npm-6fff8557cd-pjdrp
Cancelling deletion of Pod internal/npm-6fff8557cd-pjdrp
Предполагаю, что за 2 минуты нода уже поднимается и снимает taint-ы notready и тд, и API передумывает удалять поды, хотя они уже завершены. Какие советы есть куда еще посмотреть?
Использовать воркер ноды, которые могут выдержать нагрузку. Если там орудует oom-killer, значит нагрузку она не держит.
Использую. Такая же фигня. Именно после ребута да.
Я сейчас буду ставить логгер евентов. Там такая жесть происходит, есть подозрение, что такие проблемы в момент Scale UP нод группы.
Обсуждают сегодня