реагирования на падения vmstorage нод? Если 1 из 3х в кластере (RF 2) падет по OOM - то vmalert (2 шт) на какой-то момент теряет метрики и наступает локальный ад… т.е. все что было открытым - закрывается и потом, как нода оживает, снова переходит в pending состояние, ну и через какое-то время в fired.
Для “штатного” обновления написали плейбук что бы останавливать vmalerts перед обновлением vmstorage… Но, возможно, есть другой путь?
не понятно почему при потере 1ноды с RF=2 теряются метрики - ведь репликация как раз и должна помочь этого избежать? "все что было открытым - закрывается и потом, как нода оживает, снова переходит в pending состояние" и еще вот это не понял совсем
наверно да, надо в этом направлении копать… Спасибо. > и еще вот это не понял совсем vmalert закрывает все активные алерты, т.к. данных нет - решает (видимо) что проблема решена.
vmalert работает по следующему принципу: 1. Если rule expression возвращает хоть какие-то данные - значит алерт активен. 2. Если у алерта стоит for>0, то активен он становится только если прошло for времени, в течении которого каждый evaluation_interval выполнялся пункт 1. 3. Если expression возвращает несколько серий - каждая серия становится отдельным алертом со своим состоянием (и своим собственным for). 4. Для каждого активного "горящего" алерта вмалерт отправялет сообщение в алертменеджер каждый evaluation_interval. 5. Если алерт становится не активным - вмалерт ничего не отправляет. Дальше все зависит от настроек алертменеджера
Обсуждают сегодня