(namespace, pod) * count(kube_pod_status_reason{reason="NodeLost", ClusterName="prod", namespace!="pricing-engine-12045797-prod"} == 0) by (namespace, pod)
Показывает поды в статусе Terminating
Но он постоянно паникует ибо они создаются и умирают
Но редко подвисают в этом статусе
Как ловить подвисшие?
тоесть как добавить фильтр что они подпадают под запрос больше 5 минут подряд и тогда выводить
Цель на дашборде показать, или алерт триггернуть? Если последнее, то можно эти 5 минут не пихать в сам экспрешшн, а указать в алертинг руле, типа: rules: - alert: PodStuckInTerminating # Condition for alerting expr: count(...) > 0 for: 5m
Обсуждают сегодня