Что делать, когда алертов в проме через чур много, некоторые

Question

Что делать, когда алертов в проме через чур много, некоторые

алертят не часто и не долго, когда мониторинг начинает превращаться в фарш из алертов? Может есть что-то типа adaptive alerting?

#metrics #programming #russian

0

27.04.2021

14 ответов

38 просмотров

Andrey Dudin

Может пора подкрутить пороги? Если алерт есть, но реакции на каждый нет, значит он алертит не на то или слишком рано.

0

27.04.2021

Evgеnу Martynenko

Эскалация? И заявки в сервисдеск не с первого шага?

0

28.04.2021

Slach [altinity]

честно, у меня всегда подгорает в такой ситуации когда люди ставят "mute" или начинают говорить что "алерты не правильные" если ваш мониторинг превращается в фарш из алертов значит вы просто не хотите разбираться с причинами этих алертов и фиксить либо причины. либо алерты (что тоже бывает) ну как пример допустим вы мониторите CPU но вообще ситуации когда 100% CPU это нормально, есть куча случаев когда мы ДОЛЖНЫ выжирать все доступное CPU эффективно как минимум в prometheus надо for: 10m выставить чтобы быть уверенным что у вас действительно отжирается CPU и прописать какие то исключения из этого, как в большую так и в меньшую сторону чтобы понимать на каких нодах CPU можно отжирать а на каких это так себе тема... для этого надо ваш проект знать

0

28.04.2021

vladimir kolobaev

Зачастую, если метрика перешла за порог, по ней не стоит сразу же отправлять уведомление, а стоит подождать какой-то осмысленный "pending interval". И этот подход действительно снизит количество уведомлений по единичным пикам на графиках, но этот подход не единственный. Для начала было бы здорово уменьшить количество сообщений, и информации в них. Как? Достаточно просто - можно вместо сообщений о возвращении в ОК, заметь на ✅: в Slack - выставлять её можно в качестве "реакции на сообщение"; в телеге - редактировать первоначальное сообщение и добавлять её вниз. Что касается уменьшения контекста в сообщении - то его "по возможности" лучше всего прятать в тред к сообщению. Так же есть различные подходы по наследованию триггеров друг от друга, и прочее. Если очень захотеть, то из фарша из алертов можно сделать мясокомбинат. :))

0

28.04.2021

𝙿𝚑𝚒𝚕𝚒𝚙 ⎈ 𝙹.𝙵𝚛𝚢

✅ - выглядит красиво, но не везде обрабатывается корректно. Например если в редмайне скопировать Алерт из телеграмм с символом ✅, все что написано после, будет отброшено при сохранении комментария

0

28.04.2021

Terry Filch

это жи проблема redmine

0

28.04.2021

𝙿𝚑𝚒𝚕𝚒𝚙 ⎈ 𝙹.𝙵𝚛𝚢

Не спорю, я хотел скорее не претензию к подходу высказать, а предупреждение, что такое может быть )

0

28.04.2021

Terry Filch

к.м.к., стоит подумать об переезде на что-то живее, чем redmine. Свою задачу он выполняет, но что бы расширить функционал - пачка плагинов нужна, а при апдейтах еще и совместимости почти нет с новыми версиями redmine. Говорю из личного опыта

0

28.04.2021

Vladimir Smirnov

Звучит как баг в работе с юникодом у редмайна. Стоит им точно завести issue

0

28.04.2021

Terry Filch

похоже на баг старой версии, уже в лс пообщались

0

28.04.2021

[DBST] Dmitry Knyazev Автор вопроса

малая доля правды в этом есть. но я скорее про зависимости итп. например, падает нода сервиса целиком и валится куча ненужных алертов типа: не работает salt-minion, нет соединения с х, недоступна шара итп

0

28.04.2021

Slach [altinity]

=) zabbix такое очень хорошо умеет, там нормально зависимые триггеры сделаны =)

0

28.04.2021

[DBST] Dmitry Knyazev Автор вопроса

тут нельзя обсуждать zabbix

0

28.04.2021

Aleksey Shirokikh · Accepted Answer

Aleksey Shirokikh

sli?

0

27.04.2021

171 похожих чатов

Что делать, когда алертов в проме через чур много, некоторые

14 ответов

Похожие вопросы