серверах 3 шарда на 3 реплики.
Есть таблица clicks Distributed с колонками A,B,F и таблица clicks_sharded ReplicatedMergeTree
У нас самописный ETL, который пытается вставлять данные
INSERT INTO clicks_sharded (A,B,F) FORMAT TabSeparated
В случаи ошибки ответа от CH пытается повторно выполнить вставку данных.
Мы делаем запрос на первую ноду:
ALTER TABLE clicks_sharded ADD COLUMN D Int32 DEFAULT 0 AFTER B;
Мгновенно получаем ошибки в clickhouse error log :
`<Error> executeQuery: Code: 16, e.displayText() = DB::Exception: There is no column with name D. …. (in query: INSERT INTO clicks_sharded ( A,B,F )
0. clickhouse-server(StackTrace::StackTrace()+0x16) [0x2b2d076]
1. clickhouse-server(DB::Exception::Exception(std::string const&, int)+0x1f) [0x11a410f]
2. clickhouse-server(DB::ITableDeclaration::check(DB::Block const&, bool) const+0x99a) [0x2c41baa]
3. clickhouse-server(DB::MergeTreeDataWriter::splitBlockIntoParts(DB::Block const&)+0x35) [0x2ce26f5]
….
`
Далее, мы видим что данные не вставляются - выполняем DROP COLUMN, на ноде где произошло это и получаем что данные у нас вставились раз 10 или 15.
Вопрос
> Как правильно поступать в случаи если CH вернул 500 -- решать такой вопрос руками?
> Может просто стоит обновить CH, но по changelog не нашел что то похожего ?
За 1.5 года - вроде многое видели - но такое впервые, чтобы одна и таже пачка данных была вставленна несколько раз (
Если используется вставка в Distributed таблицу, то надо сначала ALTER-ить локальные таблицы, а только потом Distributed. Почему: дело в том, что после вставки в Distributed таблицу, заполняются все столбцы, которые в ней есть, включая свежедобавленный. Затем этот блок данных отправляется дальше для вставки в локальные таблицы, где нового столбца ещё нет. Эта вставка не проходит, и Distributed таблица пытается её повторять. При этих повторах должна срабатывать дедубликация данных. Почему не сработала? Есть разные варианты - возможно, используются столбцы с rand() или now() значением по-умолчанию или что-то в этом роде. Также может быть некоторые идеи знает @vludv
Обсуждают сегодня