серверах 3 шарда на 3 реплики. 
                  
                  
                  
                  
                  
                  
                  
                  
                  Есть таблица clicks Distributed с колонками A,B,F и таблица clicks_sharded  ReplicatedMergeTree 
                  
                  
                  У нас самописный ETL, который пытается вставлять данные 
                  
                  
                  INSERT INTO clicks_sharded (A,B,F) FORMAT TabSeparated
                  
                  
                  В случаи ошибки ответа от CH пытается повторно выполнить вставку данных. 
                  
                  
                  Мы делаем запрос на первую ноду: 
                  
                  
                  ALTER TABLE clicks_sharded ADD COLUMN D Int32 DEFAULT 0 AFTER B;
                  
                  
                  Мгновенно получаем ошибки в clickhouse error log : 
                  
                  
                  `<Error> executeQuery: Code: 16, e.displayText() = DB::Exception: There is no column with name D.  …. (in query: INSERT INTO clicks_sharded (   A,B,F )  
                  
                  
                  0. clickhouse-server(StackTrace::StackTrace()+0x16) [0x2b2d076]
                  
                  
                  1. clickhouse-server(DB::Exception::Exception(std::string const&, int)+0x1f) [0x11a410f]
                  
                  
                  2. clickhouse-server(DB::ITableDeclaration::check(DB::Block const&, bool) const+0x99a) [0x2c41baa]
                  
                  
                  3. clickhouse-server(DB::MergeTreeDataWriter::splitBlockIntoParts(DB::Block const&)+0x35) [0x2ce26f5]
                  
                  
                  ….
                  
                  
                  ` 
                  
                  
                  Далее, мы видим что данные не вставляются - выполняем DROP COLUMN, на ноде где произошло это и получаем что данные у нас вставились раз 10 или 15.
                  
                  
                  Вопрос 
                  
                  
                  > Как правильно поступать в случаи если CH вернул 500 -- решать такой вопрос руками? 
                  
                  
                  > Может просто стоит обновить CH, но по changelog не нашел что то похожего ?
                  
                  
                   
                  
                  
                  За 1.5 года - вроде многое видели - но такое впервые, чтобы одна и таже пачка данных была вставленна несколько раз (
                  
                  
                
Если используется вставка в Distributed таблицу, то надо сначала ALTER-ить локальные таблицы, а только потом Distributed. Почему: дело в том, что после вставки в Distributed таблицу, заполняются все столбцы, которые в ней есть, включая свежедобавленный. Затем этот блок данных отправляется дальше для вставки в локальные таблицы, где нового столбца ещё нет. Эта вставка не проходит, и Distributed таблица пытается её повторять. При этих повторах должна срабатывать дедубликация данных. Почему не сработала? Есть разные варианты - возможно, используются столбцы с rand() или now() значением по-умолчанию или что-то в этом роде. Также может быть некоторые идеи знает @vludv
Обсуждают сегодня