кстати, комьюнити, вашего мнения прошу, ситуация такая: до этого я работал в стартапах и мелких конторах далеких от энтерпрайза, задача была - не платить лишнего бабла, получ...
всем привет хочу настроить систему оповещения следующим образом, условно: 1) алерты которые ведут к потерям бизнеса, типа просыпайся ночью если дежурный и иди реагируй - они ...
> тут сложности возникают с тем, что на каждый алерт должен быть акновледж, что им кто-то занимается для этого в opsgenie и собираются из пунктов 1-2, там все это есть > внес...
@valyala а вот такой вопрос есть событие вида "http{...tags} <latency>", скорость генерации примерно 100 в секунду с распределением таймстампа в пределах последних 5 минут (то...
судя по всему в ближайшее время мне надо будет вплотную мониторингом инфраструктур заниматься, есть начальные знания и полугодовой опыт настройки базового алертинга и монитори...
@freeseacher привет есть такие компоненты: opsgenine, alertmanager предположим я хочу такую логику: если алерт не устранен в течение N часов то он повышает свой приоритет (или...
кстати. хочу написать (че-то не нашел готового) statsd-forwarder который будет задерживать пакеты на определенный промежуток времени (в пределах 5 минут) алгоритм такой: отпр...
а вот интересно: https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/ The optional for clause causes Prometheus to wait for a certain duration between fi...
сижу настраиваю алертинг в алертменеджере ... сразу вижу неудобство: если метрик нужных нет то алерты визуально всегда есть но не стриггерятся никогда (ложное чувство спокойст...
сейчас я получаю метрики раз в 5 минут и экспозю экспортером для прометея что в целом работает, но нет нужной мне гранулированости так как получаются 5-минутные интервалы к сч...
я так понимаю, в проме нет возможности считать куммулятвную метрику с задержкой? не совсем актуально для прома, но в вм можно метрики с таймстампом в прошлом класть, и хочется...
есть лямбда-функция которая получает логи aws alb, задача строить SLA без saas сейчас в docker-compose у меня: prom/statsd-exporter, prom/prometheus, victoriametrics/victoria-...
очень интересно, спасибо раз уж мы подняли сессию вопросов и ответов - а если предположить что SLA высчитывается не по средней задерже значениям а по эрроррейту и перцентилю з...
поясните такой момент плиз? гугльбук говорит: "An easy way to understand the difference between SLO and SLA is to ask “what happens of the SLOs aren’t met?“. If there is no ex...
а есть у кого в линках статьи как люди использовали saas но им было плохо и они перешли на опенсорс? мне нужно чтобы с руководством работать :)
отправляю метрики в pushgateway - и через PUT, и через POST я думал что отправив два раза их должно стать два раза больше (ну типа посылаем, пром собирает увеличивающиеся счет...
вопрос в зал: где я мог затупить? в проме таргет есть но в эндпоинтах у него пусто # k -n monitoring get servicemonitor betgenius-staging -o yaml ... spec: endpoints: - i...
а вот в кубере есть кронджоба которая периодически запускает таски - и мне надо алертить если у нее не получилось тут поискал информацию, и обнаружил что по джобам нормально с...
ни для кого не секрет что алерты должны сопровождаться ссылками на ранбуки, надеюсь? вот интересный темплейт ранбука: https://github.com/wentingwang/SRECon19/blob/master/runbo...
чтобы два раза не вставать: а дашбордам можно уже задавать фиксированые алиасы, или все так же генерятся рандомные ид при старте графаны? (юзкейс: я через апи хочу рисовать ан...