?
node-exporter+cadvisor или telegraf ?
Проблема в том, что на vmware-виртуалке node-exporter+cadvisor периодически сжирают проц поровну между sy и usr.
Внешне выглядит так:
- что-то происходит
- вероятно это вызывает замедление сбора метрик
- в результате экспортёр (пока предположение, что cadvisor) не успевает отдать метрики прому
- проц забит, LA вырастает до 90, в логах cpu stuck
- все процессы на хосте начинают очень медленно работать
- проходит само собой.
Что там с vmware происходит - не знаю, она на стороне хостера, тот ручается, что cpu_ready в пределах 10%.
С какой стороны это разматывать или просто поменять сборщик метрик ?
По описанию похоже будто на уровне VMware виртуалка как-то лимитируется и когда ресурсов гипервизора не хватает, машину начинают тротллить
А что внутри ВМ покажет в top показатель st?
cpue steal // iowait чего показывают?
Обсуждают сегодня