куда из БД будут выгружаться ид пользователей и их метки (в бд многие ко многим). Вижу несколько вариантов реализации, как из них более предпочтителен и производителен? 
                  
                  
                  
                  
                  
                  Задача: Как настроить структуру данных в ClickHouse для хранения информации ид - (много ид)?
                  
                  
                  
                  
                  
                  Варианты реализации:
                  
                  
                  
                  
                  
                  1. Таблица с массивом: Создать таблицу с двумя столбцами: user_id и label_ids, где label_ids будет представлять собой массив идентификаторов меток пользователя.
                  
                  
                  
                  
                  
                  2. Словарь и таблица связей: Использовать таблицу словаря для хранения меток и отдельную таблицу связей для связывания пользователей с их метками.
                  
                  
                  
                  
                  
                  3. Движок Log: Создать таблицу связей с массивами меток с использованием движка Log.
                  
                  
                  
                  
                  
                  4. Или что-то в духе
                  
                  
                  
                  
                  
                  CREATE MATERIALIZED VIEW partner_labels_array AS
                  
                  
                  SELECT
                  
                  
                      user_id,
                  
                  
                      arrayJoin(arrayMap(x -> toString(x), groupArray(label_id))) AS label_ids
                  
                  
                  FROM user_labels
                  
                  
                  GROUP BY user_id;
                  
                  
                  
                  
                  
                  Поделитесь опытом, кейсами, пж )
                  
                  
                
выглядит будто вы используете materialized view как в постгре. По факту materialized view является тригером для записи в конечную таблицу. А зачем вам массивы в подобной таблице? Если многу ОЗУ и таблица не 10гб весит - используйте словари. если что-то большое - обычный mergetree с двумя колонками без группировки.
что дальше то с этой таблицей делать будете?
Использовать в роли фильтра в выборке. Мол дай всю стату за Н времени с такими-то то условиями и только тех юзеров у кого есть эта метка
сколько всего юзеров?
Десятки тысяч
источник данных какой при этом? какая то стороняя SQL БД ?
Обсуждают сегодня