реквестов "outside SLA". Я правильно понимаю, что это мне нужен Histogram?
то сначала надо понять что такое sli потом как из него получается slo а потом втупую добавить девятку к slo и будет SLA
Не уверен что я это найду 🙂 А если взять упрощенно "для нас нормально если бОльшая часть реквестов обрабатывается за N времени". Я так понимаю, что "percentile" про это? Мне наверное для первого шага будет достаточно просто понять по каким бакетам у меня реквесты попадают
первый шаг определить на каком месте вы снимаете какой из sli
Вот у меня есть например цифры когда реквест был сделан, и когда он был закончен (для контекста - идентификация клиента, начало процесса и когда он идентифицирован). Сейчас я могу вручную в базе видеть, что клиент А был в идентификации 5 часов, клиент Б 30 минут. Я думал эти данные использовать.
довольно бесполезные данные честно говоря. особенно если считать что точка съеьма — база. мониторинг поверх базы будет либо сильно отставать либо очень дорогим по колву кверей
В общем случае да, но в частном, когда sla фиксирован и не собирается меняться, то достаточно завести два счетчика запросов - один для всех запоосов, второй - для запросов, не уложившихся в sla. По этим счетчикам можно подсчитать процент запросов, не уложившихся в sla, на любом интервале времени.
Обсуждают сегодня