реплики. Distributed движки для вставки не используются, балансировка по шардам и репликам осуществляется на стороне приложения, данные пишутся сразу в реплики, в день по 75-85к insert-ов. КХ 20.8.3.18.
Пару дней назад на одном (самом большом) шарде стали вылетать большие insert-запросы в реплицируемые таблицы с ошибкой ZooKeeper session was expired. Полез смотреть query_log - ошибки, оказывается, идут давно, просто раньше их было 200-300 в сутки, а пару дней назад резко стало под 2000 в сутки. Новых таблиц/insert-ов не добавлялось, остальные шарды работают как и прежде.
Подскажите, пожалуйста, куда копать?
Прочитал, что ошибка может быть связана с выбором лидера ЗК, поймал ошибку на большом запросе, полез смотреть
select * from system.zookeeper zk where zk.path = '/clickhouse/tables/.../leader_election'
Там есть запись о выборе нового лидера, сделанная через 14 секунд после падения моего запроса с ошибкой ZooKeeper session was expired.
Это оно?
Падает подключения к зукиперу. Посмотрите логи если есть дополнительные ошибки. Посмотрите и логи ЗК. Не падает ли он? Или лидер меняется часто?
К логам ЗК у меня, к сожалению, доступа нет, попрошу коллег посмотреть. Утром, когда смотрел system.zookeeper, лидер менялся раз в 7-15 минут. Сейчас последняя смена была 2 часа назад.
Я про лидер зукипера а не КХ. Лидер КХ меняется только соединения прерывается или лаг по репликации большой.
В КХ теперь все реплики лидеры (с 20.5)
Ну это я так понял не 20.5)
Это 20.8.3.18
А это не то же самое, что «кластер кх - мультимастер»?
Кластер кх-мультимастер про то, что можно писать и читать с любой реплики. Реплика лидер - та реплика, которая отвечает за трансфер нового парта. Она не выделена и может меняться от парта к парту. Сейчас этот механизм изменился.
Кх всегда был мультимастер. У репликейтид таблицы одна из реплик была лидером. Она назначала мержи. Теперь мержи назначают все реплки если им не запрещено.
Лидер назначал мержи. Он решал когда и какие парты мержить
Обсуждают сегодня