cattle-monitoring-system/rancher-monitoring-prometheus
severity: warning
short: 6h
=============
message: The API server is burning too much error budget
Rancher: 2.5.7
Это уже четвертый кластер Rancher, который я разворачиваю, но такого алерта еще не получал. Правило, которое отрабатывает:
sum(apiserver_request:burnrate3d) > (1 * 0.01) and sum(apiserver_request:burnrate6h) > (1 * 0.01)
Возвращаемое value ~= 0.025 для обоих метрик.
Первое, что проверил это валидность самого правила - тут все один в один как и версиях Rancher, где все в порядке. В логах api-server ничего подозрительного. Вообще нет никаких внешних признаков, что что-то не так (хотя и нагрузки в кластере пока нет). Кто-нибудь сталкивался с подобным?
У вас все кластера одинаковой версии? я ловил такое после обновления до 1.18 и дальше
В этой установке: версия rancher cluster: v1.19.9 версия администрируемого кластера (он пока только один): v1.20.5
Думаете стоит выровнять версии кластеров? Или это пустая трата времени?
из того, что я находил, нужно было запрос обновить для алерта
Да. Это я видел. Проверил запрос - с ним порядок. Один в один как в других версиях rancher
в mixin могут быть ошибочные алерты. Например есть алерт, который всегда горит для однонодовых кластеров (cpu/memory overcommit). Потому что разраб алерта почему-то взял не процент конкретный, например 95%, а решил его считать от количества нод вида n-1/n, и в зависмости от количества нод этот процент может быть от 0% (1 нода), 50% (2 ноды), 66% (3 ноды) и так далее.
Ага. Я уже встречал такие ошибки, но по ним есть issue или что-то подобное. А тут пока не понятно - могу ля просто засайленсить это дерьмо или нет.
ну вот выясни нет ли ошибок в твоем алерте, заведи issue. По тому алерту что я описал сейчас нет открытых issue кстати
Так и сделаю наверное. Все таки это одна из самых свежих версий rancher. Вполне может быть у них что-то недокуручено. UI например уже поплыл в нескольких местах))
Возвращаясь к моей проблеме с Rancher. Может кто-то тоже сейчас пытается это пофиксить. Все таки есть issue и есть общая проблема. Это проблема, которую уже пофиксили в свежих версиях prometheus-adapter, но эту версию еще не впихнули в Rancher. Добавил свои 5 копеек в issue. Остается ждать, когда пофиксят. Проблема вообщем не критичная и не свидетельствует о реальных неполадках. https://github.com/prometheus-operator/kube-prometheus/issues/304 https://github.com/rancher/charts/issues/916
неожиданно конечно, но приятно знать, что это не реальные проблемы
prometheus adapter метрики для hpa возвращает и для kubectl top . К правилам алертов прометеуса не имеет никакого отношения. Ранчер кстати тоже issue который ты скинул про metrics api, а не про алерт о котором ты говорил ранее KubeAPIErrorBudgetBurn
Ну как бы есть issue, где у людей те же проблем примерно с теми же версиями rancher и monitoring. Я вижу точно такие же логи и у меня в apiserver. Плюс ссылается автор на issue kube-prometheus(https://github.com/prometheus-operator/kube-prometheus/issues/304), где явно описывается эта проблема и то что это пофиксили в prometheus-adapter:v0.8.2 (в Rancher используют 0.6.0). Там же говориться о том, что этот "баг" вызывает KubeAPIErrorBudgetBurn. Я не стал дальше копать, ибо боротья с какими то багами из коробки я не собираюсь. Просто дождусь фикса от rancher.
теперь понял как это связано. Ошибки loading OpenAPI spec for "v1beta1.metrics.k8s.io" failed with: OpenAPI spec does not exist из adapter повышают счетчики метрик которые в алерте KubeAPIErrorBudgetBurn
именно так, я просто несвязно излагаю иногда))
А в кластере то есть APIService v1beta1.metrics.k8s.io?
А что за версия кластера?
Обсуждают сегодня