expr: node_load1 > 2
for: 5m
labels:
severity: high
Как сделать исключение на один сервер? Я сначала думал что если создам еще один алерт и четко укажу какой сервер то это оно. Но нет, так не работает) Не могу в доке найти как делать исключение. Если кто-то знает, подскажите плз
Не очень хороший способ, но можно вот так: node_load1{instance!="12.12.12.12:9100"}
Если надо только для одного, то надо делать не новый алерт, а текущий исправить на один сервер
Может лучше сравнивать LA не с константой, а с вычисляемым полем? Или у вас на всех машинах по 2 cpu?
Да, почти на всех серверах по два цпу
А как сделать это вычислчемое поле? Может сможете дать пример какого-то хорошего алерта для LA
Есть жи прям куча готовых рулов и алертов для прома. И грфиков для графаны. Забыл как этот проект называется... Сетапается вместе с пром-оператором
А цель этого алерта какая?
Если высокий LA = сервер перегружен = алерт
Опустим за рамками правдивость этого утверждения, пожалуй. А что с этим алертом дальше делать?
если это один сервер, то можно также загнать в silence в alertmanager на продолжительный срок.
Я бы повешал сайленс для этого сервера в алертманагере
Так он мне тоже нужен. Просто там больше ядер и я хотел сделать алерт не на 2 а на 8
Обсуждают сегодня