спор с разработчиком. Может я конечно что то не понимаю и не хватает знаний, но попробую объяснить:
1) Кубер на трех выделенных серверах с хостовой OC Debian 10
2) Периодически иногда срабатывает OOM Kill-er на некоторых приложениях, но это я вижу при редеплое подов, когда они запросили ресурсов больше чем выделено и под крэшится и у меня срабатываает алерт что под прибит, тут все ок в Descibe это вижу.
3) Бывает такое что в случаейный момент приложение (другое) падает, в describe вижу Termination и 137 error code. При этом не написано что OOM Killer приходил.
Разраб убеждает что это его грохнула система, типо минуя кубер. Произошел скачек потребления ресурсов и якобы система прибила первого кто запросил ресурсов. Может быть такое?
Я dmesg смотрю на всех нодах, нигде совпадений по времени нет.
Воспроизвести это можно так: если с хоста послать на PID контейнера kill -9 и все кубер понятное дело знать ничего не будет, приложение рестартанет.
P.S. подскажите плз, что в данной ситуации делать, может подскажите что почитать. Искал по инету толком ничего не нашел.
Лимиты и реквесты есть ?
Да, устаановлены, но не Garanted QOS (лимиты 2x от реквестов)
137 это грохнул кубер. Обычно он добавляет к 128 сигнал которым завершает pod 128 + 9 (SIGKILL) = 137. По livenessProbe мб?
Но я бы увидел это в Event, а так получается даже провальных не было. То есть приложение отвечало.
а может час уже прошел и евенты были удалены?
Возможно, было это ночью.
ну ночь сколько часов назад была? Если больше часа назад, значит евентов уже не будет в etcd
oom_score_adj можешь конкретному процессу -100 сделать и тогда Добрый дядя киллер обойдет его стороной, но лучше я бы на твоем месте подтюнил overcommit_ratio и swappiness, это при условии что у тебя vm.overcommit_memory=2, но в таком случае нужно понимать что делаешь, иначе можно сделать гораздо хуже чем то что есть. )))
Ok, пока буду делать что @identw предложил, повесил алерт. Вдруг и правда у меня проссто events почистились, а само приложение было по ливнес пробе убито
поставь event_exporter, у будут ивенты как метрики. и поймешь, какие события были у тебя, в тч не проходил ли пробу контейнер
Обсуждают сегодня