Доброе утро! Получаю от Rancher вот такой алерт: ALERTNAME: KubeAPIErrorBudgetBurn long: 3d prometheus:

Question

Доброе утро! Получаю от Rancher вот такой алерт: ALERTNAME: KubeAPIErrorBudgetBurn long: 3d prometheus:

cattle-monitoring-system/rancher-monitoring-prometheus
severity: warning
short: 6h
=============
message: The API server is burning too much error budget

Rancher: 2.5.7

Это уже четвертый кластер Rancher, который я разворачиваю, но такого алерта еще не получал. Правило, которое отрабатывает:

sum(apiserver_request:burnrate3d) > (1 * 0.01) and sum(apiserver_request:burnrate6h) > (1 * 0.01)

Возвращаемое value ~= 0.025 для обоих метрик.
Первое, что проверил это валидность самого правила - тут все один в один как и версиях Rancher, где все в порядке. В логах api-server ничего подозрительного. Вообще нет никаких внешних признаков, что что-то не так (хотя и нагрузки в кластере пока нет). Кто-нибудь сталкивался с подобным?

#devops #kubernetes #programming #russian

0

19.04.2021

18 ответов

47 просмотров

Konstantin Podlesnyi Автор вопроса

Sergei Monakhov
У вас все кластера одинаковой версии? я ловил так...

В этой установке: версия rancher cluster: v1.19.9 версия администрируемого кластера (он пока только один): v1.20.5

0

19.04.2021

Konstantin Podlesnyi Автор вопроса

Sergei Monakhov
У вас все кластера одинаковой версии? я ловил так...

Думаете стоит выровнять версии кластеров? Или это пустая трата времени?

0

19.04.2021

Sergei Monakhov

Konstantin Podlesnyi
Думаете стоит выровнять версии кластеров? Или это ...

из того, что я находил, нужно было запрос обновить для алерта

0

19.04.2021

Konstantin Podlesnyi Автор вопроса

Sergei Monakhov
из того, что я находил, нужно было запрос обновить...

Да. Это я видел. Проверил запрос - с ним порядок. Один в один как в других версиях rancher

0

19.04.2021

Dmitry Sergeev 🇺🇦

Konstantin Podlesnyi
Думаете стоит выровнять версии кластеров? Или это ...

в mixin могут быть ошибочные алерты. Например есть алерт, который всегда горит для однонодовых кластеров (cpu/memory overcommit). Потому что разраб алерта почему-то взял не процент конкретный, например 95%, а решил его считать от количества нод вида n-1/n, и в зависмости от количества нод этот процент может быть от 0% (1 нода), 50% (2 ноды), 66% (3 ноды) и так далее.

0

19.04.2021

Konstantin Podlesnyi Автор вопроса

Dmitry Sergeev 🇺🇦
в mixin могут быть ошибочные алерты. Например есть...

Ага. Я уже встречал такие ошибки, но по ним есть issue или что-то подобное. А тут пока не понятно - могу ля просто засайленсить это дерьмо или нет.

0

19.04.2021

Dmitry Sergeev 🇺🇦

Konstantin Podlesnyi
Ага. Я уже встречал такие ошибки, но по ним есть i...

ну вот выясни нет ли ошибок в твоем алерте, заведи issue. По тому алерту что я описал сейчас нет открытых issue кстати

0

19.04.2021

Konstantin Podlesnyi Автор вопроса

Dmitry Sergeev 🇺🇦
ну вот выясни нет ли ошибок в твоем алерте, заведи...

Так и сделаю наверное. Все таки это одна из самых свежих версий rancher. Вполне может быть у них что-то недокуручено. UI например уже поплыл в нескольких местах))

0

19.04.2021

Konstantin Podlesnyi Автор вопроса

Dmitry Sergeev 🇺🇦
ну вот выясни нет ли ошибок в твоем алерте, заведи...

Возвращаясь к моей проблеме с Rancher. Может кто-то тоже сейчас пытается это пофиксить. Все таки есть issue и есть общая проблема. Это проблема, которую уже пофиксили в свежих версиях prometheus-adapter, но эту версию еще не впихнули в Rancher. Добавил свои 5 копеек в issue. Остается ждать, когда пофиксят. Проблема вообщем не критичная и не свидетельствует о реальных неполадках. https://github.com/prometheus-operator/kube-prometheus/issues/304 https://github.com/rancher/charts/issues/916

0

20.04.2021

Aleksandr F.

Konstantin Podlesnyi
Возвращаясь к моей проблеме с Rancher. Может кто-т...

неожиданно конечно, но приятно знать, что это не реальные проблемы

0

20.04.2021

Dmitry Sergeev 🇺🇦

Konstantin Podlesnyi
Возвращаясь к моей проблеме с Rancher. Может кто-т...

prometheus adapter метрики для hpa возвращает и для kubectl top . К правилам алертов прометеуса не имеет никакого отношения. Ранчер кстати тоже issue который ты скинул про metrics api, а не про алерт о котором ты говорил ранее KubeAPIErrorBudgetBurn

0

20.04.2021

Konstantin Podlesnyi Автор вопроса

Dmitry Sergeev 🇺🇦
prometheus adapter метрики для hpa возвращает и дл...

Ну как бы есть issue, где у людей те же проблем примерно с теми же версиями rancher и monitoring. Я вижу точно такие же логи и у меня в apiserver. Плюс ссылается автор на issue kube-prometheus(https://github.com/prometheus-operator/kube-prometheus/issues/304), где явно описывается эта проблема и то что это пофиксили в prometheus-adapter:v0.8.2 (в Rancher используют 0.6.0). Там же говориться о том, что этот "баг" вызывает KubeAPIErrorBudgetBurn. Я не стал дальше копать, ибо боротья с какими то багами из коробки я не собираюсь. Просто дождусь фикса от rancher.

0

20.04.2021

Dmitry Sergeev 🇺🇦

Konstantin Podlesnyi
Ну как бы есть issue, где у людей те же проблем пр...

теперь понял как это связано. Ошибки loading OpenAPI spec for "v1beta1.metrics.k8s.io" failed with: OpenAPI spec does not exist из adapter повышают счетчики метрик которые в алерте KubeAPIErrorBudgetBurn

0

20.04.2021

Konstantin Podlesnyi Автор вопроса

Dmitry Sergeev 🇺🇦
теперь понял как это связано. Ошибки loading OpenA...

именно так, я просто несвязно излагаю иногда))

0

20.04.2021

Dmitry Sergeev 🇺🇦

Konstantin Podlesnyi
Ну как бы есть issue, где у людей те же проблем пр...

А в кластере то есть APIService v1beta1.metrics.k8s.io?

0

20.04.2021