172 похожих чатов

Доброе утро! Получаю от Rancher вот такой алерт: ALERTNAME: KubeAPIErrorBudgetBurn long: 3d prometheus:

cattle-monitoring-system/rancher-monitoring-prometheus
severity: warning
short: 6h
=============
message: The API server is burning too much error budget

Rancher: 2.5.7

Это уже четвертый кластер Rancher, который я разворачиваю, но такого алерта еще не получал. Правило, которое отрабатывает:

sum(apiserver_request:burnrate3d) > (1 * 0.01) and sum(apiserver_request:burnrate6h) > (1 * 0.01)

Возвращаемое value ~= 0.025 для обоих метрик.
Первое, что проверил это валидность самого правила - тут все один в один как и версиях Rancher, где все в порядке. В логах api-server ничего подозрительного. Вообще нет никаких внешних признаков, что что-то не так (хотя и нагрузки в кластере пока нет). Кто-нибудь сталкивался с подобным?

18 ответов

33 просмотра

У вас все кластера одинаковой версии? я ловил такое после обновления до 1.18 и дальше

Konstantin-Podlesnyi Автор вопроса
Sergei Monakhov
У вас все кластера одинаковой версии? я ловил так...

В этой установке: версия rancher cluster: v1.19.9 версия администрируемого кластера (он пока только один): v1.20.5

Konstantin-Podlesnyi Автор вопроса
Sergei Monakhov
У вас все кластера одинаковой версии? я ловил так...

Думаете стоит выровнять версии кластеров? Или это пустая трата времени?

Konstantin Podlesnyi
Думаете стоит выровнять версии кластеров? Или это ...

из того, что я находил, нужно было запрос обновить для алерта

Konstantin-Podlesnyi Автор вопроса
Sergei Monakhov
из того, что я находил, нужно было запрос обновить...

Да. Это я видел. Проверил запрос - с ним порядок. Один в один как в других версиях rancher

Konstantin Podlesnyi
Думаете стоит выровнять версии кластеров? Или это ...

в mixin могут быть ошибочные алерты. Например есть алерт, который всегда горит для однонодовых кластеров (cpu/memory overcommit). Потому что разраб алерта почему-то взял не процент конкретный, например 95%, а решил его считать от количества нод вида n-1/n, и в зависмости от количества нод этот процент может быть от 0% (1 нода), 50% (2 ноды), 66% (3 ноды) и так далее.

Konstantin-Podlesnyi Автор вопроса
Dmitry Sergeev 🇺🇦
в mixin могут быть ошибочные алерты. Например есть...

Ага. Я уже встречал такие ошибки, но по ним есть issue или что-то подобное. А тут пока не понятно - могу ля просто засайленсить это дерьмо или нет.

Konstantin Podlesnyi
Ага. Я уже встречал такие ошибки, но по ним есть i...

ну вот выясни нет ли ошибок в твоем алерте, заведи issue. По тому алерту что я описал сейчас нет открытых issue кстати

Konstantin-Podlesnyi Автор вопроса
Dmitry Sergeev 🇺🇦
ну вот выясни нет ли ошибок в твоем алерте, заведи...

Так и сделаю наверное. Все таки это одна из самых свежих версий rancher. Вполне может быть у них что-то недокуручено. UI например уже поплыл в нескольких местах))

Konstantin-Podlesnyi Автор вопроса
Dmitry Sergeev 🇺🇦
ну вот выясни нет ли ошибок в твоем алерте, заведи...

Возвращаясь к моей проблеме с Rancher. Может кто-то тоже сейчас пытается это пофиксить. Все таки есть issue и есть общая проблема. Это проблема, которую уже пофиксили в свежих версиях prometheus-adapter, но эту версию еще не впихнули в Rancher. Добавил свои 5 копеек в issue. Остается ждать, когда пофиксят. Проблема вообщем не критичная и не свидетельствует о реальных неполадках. https://github.com/prometheus-operator/kube-prometheus/issues/304 https://github.com/rancher/charts/issues/916

Konstantin Podlesnyi
Возвращаясь к моей проблеме с Rancher. Может кто-т...

неожиданно конечно, но приятно знать, что это не реальные проблемы

Konstantin Podlesnyi
Возвращаясь к моей проблеме с Rancher. Может кто-т...

prometheus adapter метрики для hpa возвращает и для kubectl top . К правилам алертов прометеуса не имеет никакого отношения. Ранчер кстати тоже issue который ты скинул про metrics api, а не про алерт о котором ты говорил ранее KubeAPIErrorBudgetBurn

Konstantin-Podlesnyi Автор вопроса
Dmitry Sergeev 🇺🇦
prometheus adapter метрики для hpa возвращает и дл...

Ну как бы есть issue, где у людей те же проблем примерно с теми же версиями rancher и monitoring. Я вижу точно такие же логи и у меня в apiserver. Плюс ссылается автор на issue kube-prometheus(https://github.com/prometheus-operator/kube-prometheus/issues/304), где явно описывается эта проблема и то что это пофиксили в prometheus-adapter:v0.8.2 (в Rancher используют 0.6.0). Там же говориться о том, что этот "баг" вызывает KubeAPIErrorBudgetBurn. Я не стал дальше копать, ибо боротья с какими то багами из коробки я не собираюсь. Просто дождусь фикса от rancher.

Konstantin Podlesnyi
Ну как бы есть issue, где у людей те же проблем пр...

теперь понял как это связано. Ошибки loading OpenAPI spec for "v1beta1.metrics.k8s.io" failed with: OpenAPI spec does not exist из adapter повышают счетчики метрик которые в алерте KubeAPIErrorBudgetBurn

Konstantin-Podlesnyi Автор вопроса
Dmitry Sergeev 🇺🇦
теперь понял как это связано. Ошибки loading OpenA...

именно так, я просто несвязно излагаю иногда))

Konstantin Podlesnyi
есть

А что за версия кластера?

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта