наскока не пойму как решать.
Вводная: у нас есть 2 ДЦ и в каждом из ДЦ в кубе бежит maxwell. Оба ДЦ постоянно активны, то есть мы сейчас легко перенаправляем весь трафик либо в один ДЦ либо в другой. Но 2 экземляра maxwell не могут одновременно работать с одной базой данных, поэтому мы добавили скрипт в контейнер с maxwell, который определяет активный ДЦ и запустает/стопает maxwell.
Проблема: у нас есть Prometheus и alertmanager rules для отлеживания состояния maxwell(по этой метрике -
up{job="maxwell"}). Загвоздка в том, что когда скрипт стопает maxwell начинают сыпаться алерты, а они в данном случае ложно положительны, так как мы намаренно остановили maxwell.
Вопрос: есть ли вообще возможность внутри правила алертменеджера определить активный ДЦ (типа вызвать
dig ...
и распарсить ответ или как-то иначе)?
есть правила сайленсинга
Обсуждают сегодня