алертят не часто и не долго, когда мониторинг начинает превращаться в фарш из алертов? Может есть что-то типа adaptive alerting?
sli?
Может пора подкрутить пороги? Если алерт есть, но реакции на каждый нет, значит он алертит не на то или слишком рано.
Эскалация? И заявки в сервисдеск не с первого шага?
честно, у меня всегда подгорает в такой ситуации когда люди ставят "mute" или начинают говорить что "алерты не правильные" если ваш мониторинг превращается в фарш из алертов значит вы просто не хотите разбираться с причинами этих алертов и фиксить либо причины. либо алерты (что тоже бывает) ну как пример допустим вы мониторите CPU но вообще ситуации когда 100% CPU это нормально, есть куча случаев когда мы ДОЛЖНЫ выжирать все доступное CPU эффективно как минимум в prometheus надо for: 10m выставить чтобы быть уверенным что у вас действительно отжирается CPU и прописать какие то исключения из этого, как в большую так и в меньшую сторону чтобы понимать на каких нодах CPU можно отжирать а на каких это так себе тема... для этого надо ваш проект знать
Зачастую, если метрика перешла за порог, по ней не стоит сразу же отправлять уведомление, а стоит подождать какой-то осмысленный "pending interval". И этот подход действительно снизит количество уведомлений по единичным пикам на графиках, но этот подход не единственный. Для начала было бы здорово уменьшить количество сообщений, и информации в них. Как? Достаточно просто - можно вместо сообщений о возвращении в ОК, заметь на ✅: в Slack - выставлять её можно в качестве "реакции на сообщение"; в телеге - редактировать первоначальное сообщение и добавлять её вниз. Что касается уменьшения контекста в сообщении - то его "по возможности" лучше всего прятать в тред к сообщению. Так же есть различные подходы по наследованию триггеров друг от друга, и прочее. Если очень захотеть, то из фарша из алертов можно сделать мясокомбинат. :))
✅ - выглядит красиво, но не везде обрабатывается корректно. Например если в редмайне скопировать Алерт из телеграмм с символом ✅, все что написано после, будет отброшено при сохранении комментария
это жи проблема redmine
Не спорю, я хотел скорее не претензию к подходу высказать, а предупреждение, что такое может быть )
к.м.к., стоит подумать об переезде на что-то живее, чем redmine. Свою задачу он выполняет, но что бы расширить функционал - пачка плагинов нужна, а при апдейтах еще и совместимости почти нет с новыми версиями redmine. Говорю из личного опыта
Звучит как баг в работе с юникодом у редмайна. Стоит им точно завести issue
похоже на баг старой версии, уже в лс пообщались
малая доля правды в этом есть. но я скорее про зависимости итп. например, падает нода сервиса целиком и валится куча ненужных алертов типа: не работает salt-minion, нет соединения с х, недоступна шара итп
=) zabbix такое очень хорошо умеет, там нормально зависимые триггеры сделаны =)
тут нельзя обсуждать zabbix
Обсуждают сегодня