171 похожих чатов

Теорикрафтовый вопрос подхода. видел много примеров правил, где берётся среднее

значение cpu usage (mode!="idle") по инстансу:
avg by(instance)(100 - rate(node_cpu_seconds_total{mode="idle"}[3m]) * 100)
что никак не даст мне понять, что сумма всех состояний (кроме idle) на каком-то одном процессоре около 100 процентов. не логичнее ли брать max by(isntance), или вообще не брать avg/max, а делать алерты на основании cpu usage каждого cpu?

4 ответов

17 просмотров

все зависит от того, на какой вопрос вы хотите ответить. avg by (instance) дает среднюю загрузку по всем ядрам CPU на каждом инстансе. Если на этих инстансах работают программы, которые умеют масштабироваться на все доступные ядра CPU, тогда мониторинг средней загрузки cpu - норм. Но если на инстансах работают программы, которые могут нагрузить только ограниченное количество ядер CPU (например, однопоточные или многопоточные, где количество потоков меньше количества ядер cpu), то в этом случае средняя загрузка по cpu ничего вам не даст. Тогда лучше мониторить max by(instance), чтобы видеть, когда такие приложения полностью нагружают часть доступных ядер CPU, в то время как остальные ядра могут простаивать.

Anatoliy-Копылов Автор вопроса
Aliaksandr Valialkin
все зависит от того, на какой вопрос вы хотите отв...

это логично, но если нет уверенности в том, что на всех машинах приложения нормально работают со всеми цпу, полагаю, для общего случая лучше брать max или каждый cpu

Aliaksandr Valialkin
все зависит от того, на какой вопрос вы хотите отв...

также для алертов лучше считать загрузку по cpu на больших интервалах времени. 3 минуты - это очень мало. Вполне возможно, что какое-то приложение может нагрузить все ядра cpu на 100% в течене этих трех минут, а потом спокойно снизить нагрузку до приемлемой. В этом случае ваш алерт сработает, но смысла в нем - ноль. Только забъет мусором очередь сработавших алертов, в которой может потеряться намного более важный алерт. Поэтому я бы советовал использовать интервал времени в квадратных скобках от 10 минут и больше.

Anatoliy-Копылов Автор вопроса
Aliaksandr Valialkin
также для алертов лучше считать загрузку по cpu на...

Да, здесь 3 минуты просто в качестве примера

Похожие вопросы

Обсуждают сегодня

Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
55
Я тут за тем, чтобы задать вопрос, так как не знаю ассемблер, учу с/с++. Короче, насколько дорога операция перехода в функцию при ее вызове? Дело в том, что в с++ есть макросы...
Максим Рябцев
12
А какие чаты вообще в ходу? Auto aim? И что еше
do you think you're better off alone? А
13
hello friends. Do you know how can I learn getx? I have a software project that I should deliver it up to 5 weeks later and I need to learn firebase too. I will be thankfull
AmirHossein Razavi
15
Привет, нужен совет старших товарищей. Есть глобальная переменная var DefaultDataFolder:string; инициализируем DefaultDataFolder:='a:\_OUT\'; есть примитивная процедур...
Max Otto
14
Доброе время суток! у меня тут иноды закончились. и понял почему по сути кстит, я периодически очищаю постгрес и сентри контайнер: postgres=# DELETE FROM nodestore_node WHER...
Юсиф Насиров
9
Вопрос. Теоретический. Есть список команд. Команды отправляю в обработку некой функции, по очереди. Разные команды могут давать разные результаты после обработки. В зависимос...
Serjone
7
Какой дос блять?
007
9
lazarus-3.2.0/gtk, linux патч "имя проекта по умолчанию project1 -> prj" день добрый не нравится "именя проекта по умолчанию" (project1), к.раз приходится переименовывать (н...
livontiy
5
Коллеги, а в чём сейчас хорошо писать на перле, в смысле ide? Пробовал в идее с плагином, подсветка есть, даже какие-то предупреждения есть, но рефакторинга считай нет. Перене...
Дмитрий Петров
9
Карта сайта