- а если предположить что SLA высчитывается не по средней задерже значениям а по эрроррейту и перцентилю задержки?
например, я считаю erorrate так: “sum(rate(http_request_duration_milliseconds_count{status=~"[5].."}[5m])) / sum(rate(http_request_duration_milliseconds_count[5m]))”
мне как-то можно заюзать этот хелпер, или тут я совсем уже путаю теплое с мягким?
Не понял про среднюю задержку. Гистограммы позволяют учитывать все значения, а не только средние. Если http_request_duration_milliseconds - это histogram, а не summary, то можно использовать вот такой запрос, чтобы получить долю запросов с длительностью не выше max_duration за последние пять минут: histogram_share(max_duration, sum(rate(http_request_duration_milliseconds_bucket[5m])) by (le)) Про разницу между histogram и summary можно почитать тут - https://prometheus.io/docs/practices/histograms/ Если нужна разбивка по лейблам - status, path или что там еще есть у http_request_duration_milliseconds , то добавляйте это в by (le, other_labels_here...)
Обсуждают сегодня