такое с полгода назад - прошло само) - на одной из двух схожих систем время от времени начинают массово сыпаться ошибки ZooKeeper session has been expired при запросах к ReplicatedMT таблицам. Девопсы грешат на накренившуюся базу ЗК, хотят переустановить ЗК с нуля.
Есть какая-нибудь инструкция по минимизации урона кластеру КХ при переустановке ЗК?
Что подразумевается под переустановкой с нуля?
Пересоздать виртуалку и заново поставить на неё ЗК.
Ок, ну смотрите этот гайд
Смотрите в логи зк ищите что то вроде, zxid rollover
Появилась такая же проблема пару лет назад, периодически отваливался ЗК, особенно в ЧНН. Где-то выше писали что проблема может быть связана со сбросом кеша на диск (у нас массив HDD) . Установили sysctl примерно на vm.dirty_background_bytes = 52428800 vm.dirty_bytes = 1073741824 и проблема ушла. Конечно она проявлятся, но очень редко, раз в несколько месяцев может отвалиться, при большой пачке тяжелых запросов. Характерной чертой до тюнинга было в то время, как отваливался ЗК в dmesg на севере с кликом [ 2587.885779] perf: interrupt took too long (2509 > 2500), lowering kernel.perf_event_max_sample_rate to 79000
Спасибо! Попробуем.
А это вы диски ЗК или КХ тюнили?
Понял, спасибо.
Обсуждают сегодня