куда из БД будут выгружаться ид пользователей и их метки (в бд многие ко многим). Вижу несколько вариантов реализации, как из них более предпочтителен и производителен?
Задача: Как настроить структуру данных в ClickHouse для хранения информации ид - (много ид)?
Варианты реализации:
1. Таблица с массивом: Создать таблицу с двумя столбцами: user_id и label_ids, где label_ids будет представлять собой массив идентификаторов меток пользователя.
2. Словарь и таблица связей: Использовать таблицу словаря для хранения меток и отдельную таблицу связей для связывания пользователей с их метками.
3. Движок Log: Создать таблицу связей с массивами меток с использованием движка Log.
4. Или что-то в духе
CREATE MATERIALIZED VIEW partner_labels_array AS
SELECT
user_id,
arrayJoin(arrayMap(x -> toString(x), groupArray(label_id))) AS label_ids
FROM user_labels
GROUP BY user_id;
Поделитесь опытом, кейсами, пж )
выглядит будто вы используете materialized view как в постгре. По факту materialized view является тригером для записи в конечную таблицу. А зачем вам массивы в подобной таблице? Если многу ОЗУ и таблица не 10гб весит - используйте словари. если что-то большое - обычный mergetree с двумя колонками без группировки.
что дальше то с этой таблицей делать будете?
Использовать в роли фильтра в выборке. Мол дай всю стату за Н времени с такими-то то условиями и только тех юзеров у кого есть эта метка
сколько всего юзеров?
Десятки тысяч
источник данных какой при этом? какая то стороняя SQL БД ?
Обсуждают сегодня