создал таблицы согласно запросам ниже, двх состоит из 3 реплицированных нод. При вставке данных они дуплицируются 4 раза (источник проверил, там 1 строчка для каждого события), причем дупликация происходит на 1 шарде. Если создавать матвью с вставкой в шард таблицу (CREATE MATERIALIZED VIEW metrics_mv ON CLUSTER 'dwh' TO metrics_shard), данные дуплицируются 2 раза. В чем может быть дело?
create table metrics_shard ON CLUSTER 'dwh'
(
id UInt64,
metric_name LowCardinality(String),
timecode DateTime,
value Float32
)
engine = ReplicatedMergeTree('/clickhouse/tables/{shard}/metrics', '{replica}')
PARTITION BY toStartOfInterval(timecode, INTERVAL 5 minute)
ORDER BY (id, metric_name, timecode)
TTL timecode + INTERVAL 10 minute
SETTINGS index_granularity = 8192, ttl_only_drop_parts = 1;
create table metrics ON CLUSTER 'dwh'
(
id UInt64,
metric_name LowCardinality(String),
timecode DateTime,
value Float32
)
engine = Distributed('dwh', 'default', 'metrics_shard', id);
CREATE MATERIALIZED VIEW metrics_mv
ON CLUSTER 'dwh' TO metrics
AS
SELECT id,
metric_name,
timecode,
value
FROM metrics_source_shard;
Здравствуйте. Вопрос еще актуален, не подскажете, что не так?
Что-то наверчено. В engine metrics_shard стоит имя дистриб таблицы, должно же быть собственное имя. И в MV в To снова дистриб таблица. Вот собственно и триггерится на саму вставку и вставку от МВ
Глупая ошибка, спасибо за помощь! create table metrics_shard ON CLUSTER 'dwh' ( id UInt64, metric_name LowCardinality(String), timecode DateTime, value Float32 ) engine = ReplicatedMergeTree('/clickhouse/tables/{shard}/metrics_shard', '{replica}') PARTITION BY toStartOfInterval(timecode, INTERVAL 5 minute) ORDER BY (id, metric_name, timecode) TTL timecode + INTERVAL 10 minute SETTINGS index_granularity = 8192, ttl_only_drop_parts = 1; create table metrics ON CLUSTER 'dwh' ( id UInt64, metric_name LowCardinality(String), timecode DateTime, value Float32 ) engine = Distributed('dwh', 'default', 'metrics_shard', id); CREATE MATERIALIZED VIEW metrics_mv ON CLUSTER 'dwh' TO metrics_shard AS SELECT id, metric_name, timecode, value FROM metrics_source_shard; Только теперь иногда появляются дубли строк. Появляются они в случайных местах, закономерности не вижу. Таблицу источник я также поправил, дублей там нет
Обсуждают сегодня