NGINX_to_much_500_ERRORS
expr: sum
by(instance, host, uri, status, job) (rate(nginx_http_requests_total{status=~"5[0-9][0-9]"}[1m])
* 60) > 0
for: 1m
labels:
severity: critical
annotations:
summary: 5XX-errors rate on {{ $labels.host }} is non-zero for 1m
в вебне в списке алертов его видно. Если тыкнуть на то, что стоит в expr, то даже есть метрика, которая подходит под expr. А алерта нет. Что-то точно делаю не так, но не могу понять, что
Если кому интересно, то покопался. Алерт не приходит на условие для метрик, которые забираются через /federate. На federate job установлен scrape_interval: 15s. На prometheus, с которого federate'ом собираются метрики тоже scrape_interval: 15s. И получилось, что за 30 секунд ALERT взводился на 25 секунд, а на 5 секунд пропадал, как-то получалось, что не хватало datapoint'ов. Сделал srape_interval: 5s на federate job'у, помогло. Теперь бы из скудного референс-описания в доках понять, из-за чего так
Обсуждают сегодня