вообще не зукипер. точнее на старом кластере используется кликхаус кипер (никаких проблем не замечали ни разу) на новый кластер решили поставить зукипер от битнами образ. ничего сверхестественного не меняли. - упоролись после перезагрузки одной реплики в бесконечный цикл (как описано в первом сообщении) нашел эту рекомендацию. - зукипер из нее не все флаги JVM поддерживает (может старая статья). то что поддерживает - применил. но ситуацию это не исправило вообще никак. откатились (заменили зукипер) на кликхаус кипер 23.3.8.22. проблемы остались точно такие же. даунгрейднул клик до 22.9.3.18 - и никаких проблем с бесконечным ридонли нет. ЗЫ. дичь еще в том. что - чтобы вывести в операбельное состояние - удаляю целиком все из зукипера (кликхаус кипера) делаю SYSTEM RESTORE REPLICA ... - все выходит из рид онли работает стабильно ошибок не наблюдаю. но следующая перезагрузка реплики - и она опять в бесконечном цикле.
Ну если не зукипер, я бы писал issue на гитхабе
2 недели втыкания (и вытыкания) что это за дичь. а методом случайного тыка проблема решилась изменением настроек зукипера (внутри клика) <zookeeper> <node> <host>...</host> <port>2181</port> </node> <node> <host>...</host> <port>2181</port> </node> <node> <host>...</host> <port>2181</port> </node> <session_timeout_ms>70000</session_timeout_ms> <operation_timeout_ms>60000</operation_timeout_ms> </zookeeper> до этого значения были <session_timeout_ms>60000</session_timeout_ms> <operation_timeout_ms>60000</operation_timeout_ms> одинаковые Карл))) и оно в бесконечном цикле умирало в конекшенах((( 🤦♂️ ЗЫ. уже перепроверил несколько раз ребутая реплику клика. перезапуск - и сразу все отлично и конекшен к зукиперу (кликхаус киперу) живой и все таблицы не в ридонли. 🤷♂️
Хм, а зачем меняли изначально?
это очень старый конфиг. щас уже никто и не вспомнит. прикол то в том, что она на старом клике работало (и работает в старом кластере), а на новом - фиаско(
Обсуждают сегодня