нод (3 шарда по 2 ноды с репликацией в каждом). Есть ReplicatedMergeTree таблица и Distributed над ней.
4 ноды кластера версии 18.14.18 revision 54409 - работают без ошибок. На двух нодах 3го шарда обновлен КХ до 18.16.1 revision 54412. В err логе такие ошибки:
2019.01.11 14:24:22.498309 [ 14 ] {} <Error> table_local (StorageReplicatedMergeTree): DB::StorageReplicatedMergeTree::queueTask()::<lambda(DB::StorageReplicatedMergeTree::LogEntryPtr&)>: Poco::Exception. Code: 1000, e.code() = 0, e.displayText() = No message received, e.what() = No message received
Из симптомов еще - на ноды где ошибки пишется меньше данных чем в остальные. С весом на каждом шарде по 1 - на проблемный шард пишется примерно 1/10 данных, вместо положенных 1/3 (1/6 на ноду) (впрочем через weight можно "отрегулировать" )
Вопрос основной - это фишка/баг новой версии? Стоит ли откатываться или апгрейдить остальные ноды?
Откатываться и ждать нового релиза. Этот баг уже исправлен в мастере, но пока не в релизе: https://github.com/yandex/ClickHouse/issues/3891
Обсуждают сегодня