на мелкие таблицы (до 10K записей), при условии, что и таблицы и словари хранятся в clickhouse-е, чтоб потом эти словари можно было джойнить к основной таблице (a-la классическая звезда)?
Например,
CREATE TABLE t_client (
id UInt32 CODEC(ZSTD),
name LowCardinality(String) CODEC(ZSTD),
)
ENGINE = MergeTree()
ORDER BY (id)
CREATE DICTIONARY d_client
(
id UInt32,
name String,
)
PRIMARY KEY id
SOURCE(CLICKHOUSE(TABLE 't_client'))
LIFETIME(60)
LAYOUT(FLAT(INITIAL_ARRAY_SIZE 50 MAX_ARRAY_SIZE 1000))
Какой-либо существенной разницы между джойном таблицы напрямую или джойном со словарем не заметил
SELECT *
FROM t_event e
JOIN t_client c ON e.client_id = c.id
SELECT *
FROM t_event e
JOIN d_client c ON e.client_id = c.id
никакого смысла словари хеш таблицы... по которым надо делать dictGet а не JOIN ... с JOIN обычные таблицы быстрее работать будут...
у вас данных значит не много... словари так себе итерируются...
а что значит итерируются?
перебирает, подряд хеш таблица не очень для такого предназначена...
разве dictGet и join на словарь - это не одно и то же? https://github.com/ClickHouse/ClickHouse/pull/10133
этот pull request добавил именно саму возможность сделать JOIN со словарем... до него нельзя было, ошибку сказал бы типа table not exists или что-то такое... IMHO нет, не тоже самое dictGet самый быстрый интерфейс к словарям. особенно если они в памяти... он o(1) на каждую строку JOIN dictionary будет ли o(1) при JOIN dictioanry не знаю...то есть на небольших словарях не должно быть вообще заметно разницы... а на словарях в десятки миллионов элементов, должно быть видно попробуйте сравните
Обсуждают сегодня