была проблема какое-то время назад, что не приходил алерт во время проблем. Оказалось, что проверяемой метрики просто нет в prometheus, т.к были проблемы с работой exporter-а. После этого мы решили, что нужно гарантировать наличие метрики в Prometheus, чтобы мы точно понимали, что если нет алерта, то все ок. Добавили отдельный микросервис, который регулярно запрашивает у Prometheus все его метрики и сверяет со списком. Если какой-то метрики нет, то генерируется алерт. Хотел поинтересоваться была ли подобная проблема у кого и как ее решили. Мб есть какие-то готовые механизмы/инструменты для проверки наличия метрик в Prometheus?
Можно посчитать кол-во нужных метрик и алертится если их кол-во меньше нужного.
Configuration as a code?
Я что-то не совсем понимаю как это поможет. Можно, пожалуйста, поподробнее?
Есть хранилище конфигурации и инструмент обновления конфигураций на хостах из этого хранилища Проверили, что в хранилище все ок и применили везде
А как это поможет отслеживать, что метрикка действительно существует в какой-то момент времени в Prometheus? Тут под конфигурацией понимается конфиг прометеуса? У нас там она всегда присутствует
Если туда никто не лазит руками - то 100% все ок )
Не очень вдумчиво прочитал исходное сообщение Если с конфигами все в порядке, то вероятно можно посмотреть в сторону алерта на отсутствие метрики/значения или на нулевое значение или на отсутствие изменений
unless ?
Есть проблема с absent, надо понимать, что проверку надо делать, чтобы не было других лейблов, иначе не сработает...
Обсуждают сегодня