171 похожих чатов

Что делать, когда алертов в проме через чур много, некоторые

алертят не часто и не долго, когда мониторинг начинает превращаться в фарш из алертов? Может есть что-то типа adaptive alerting?

14 ответов

21 просмотр

sli?

Может пора подкрутить пороги? Если алерт есть, но реакции на каждый нет, значит он алертит не на то или слишком рано.

Эскалация? И заявки в сервисдеск не с первого шага?

честно, у меня всегда подгорает в такой ситуации когда люди ставят "mute" или начинают говорить что "алерты не правильные" если ваш мониторинг превращается в фарш из алертов значит вы просто не хотите разбираться с причинами этих алертов и фиксить либо причины. либо алерты (что тоже бывает) ну как пример допустим вы мониторите CPU но вообще ситуации когда 100% CPU это нормально, есть куча случаев когда мы ДОЛЖНЫ выжирать все доступное CPU эффективно как минимум в prometheus надо for: 10m выставить чтобы быть уверенным что у вас действительно отжирается CPU и прописать какие то исключения из этого, как в большую так и в меньшую сторону чтобы понимать на каких нодах CPU можно отжирать а на каких это так себе тема... для этого надо ваш проект знать

Зачастую, если метрика перешла за порог, по ней не стоит сразу же отправлять уведомление, а стоит подождать какой-то осмысленный "pending interval". И этот подход действительно снизит количество уведомлений по единичным пикам на графиках, но этот подход не единственный. Для начала было бы здорово уменьшить количество сообщений, и информации в них. Как? Достаточно просто - можно вместо сообщений о возвращении в ОК, заметь на ✅: в Slack - выставлять её можно в качестве "реакции на сообщение"; в телеге - редактировать первоначальное сообщение и добавлять её вниз. Что касается уменьшения контекста в сообщении - то его "по возможности" лучше всего прятать в тред к сообщению. Так же есть различные подходы по наследованию триггеров друг от друга, и прочее. Если очень захотеть, то из фарша из алертов можно сделать мясокомбинат. :))

✅ - выглядит красиво, но не везде обрабатывается корректно. Например если в редмайне скопировать Алерт из телеграмм с символом ✅, все что написано после, будет отброшено при сохранении комментария

это жи проблема redmine

Не спорю, я хотел скорее не претензию к подходу высказать, а предупреждение, что такое может быть )

к.м.к., стоит подумать об переезде на что-то живее, чем redmine. Свою задачу он выполняет, но что бы расширить функционал - пачка плагинов нужна, а при апдейтах еще и совместимости почти нет с новыми версиями redmine. Говорю из личного опыта

Звучит как баг в работе с юникодом у редмайна. Стоит им точно завести issue

похоже на баг старой версии, уже в лс пообщались

[DBST] Dmitry-Knyazev Автор вопроса

малая доля правды в этом есть. но я скорее про зависимости итп. например, падает нода сервиса целиком и валится куча ненужных алертов типа: не работает salt-minion, нет соединения с х, недоступна шара итп

=) zabbix такое очень хорошо умеет, там нормально зависимые триггеры сделаны =)

[DBST] Dmitry-Knyazev Автор вопроса

тут нельзя обсуждать zabbix

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта