правила, одно из которых такое:
alert: KubeNodeUnreachable
expr: (kube_node_spec_taint{effect="NoSchedule",job="kube-state-metrics",key="node.kubernetes.io/unreachable"}
unless ignoring(key, value) kube_node_spec_taint{job="kube-state-metrics",key=~"ToBeDeletedByClusterAutoscaler|cloud.google.com/impending-node-termination|aws-node-termination-handler/spot-itn"})
== 1
Оно триггерится, когда какая то нода 15 минут и более недоступна. У меня есть несколько preemptible нод, которые иногда долго переподнимаются, от чего триггерится этот алерт.Никак не получается пофиксить это правило. Пытаюсь скрестить с kube_node_labels{label_yandex_cloud_preemptible="true"}
Может кто-то уже решал подобный кейс?
вообще с prometheus-operator никаких "дефолтных рулесов" не идет потому что rules туда ставятся через CRD отдельный вот с helm chart который ставит prometheus-operator вполне возможно такие CRD прилетают
угу, немного неточно выразился. так и есть - с чартом
дык покопайте чарт может там можно поправить эти рулесы ну или чарт форкните если нельзя
да рулесы-то я знаю как поправить, я выражение не могу пофиксать (
Обсуждают сегодня