(типа яндекс метрики) какой взять движок?
(данных планируется много миллионов)
берите стандартный
MT/ReplicatedMT
https://clickhouse.com/docs/en/engines/table-engines/mergetree-family/
https://kb.altinity.com/altinity-kb-setup-and-maintenance/clickhouse-deployment-plan/
много миллионов? 3 миллиона это одно, 933 миллиона это другое, я бы советовал разные движки и подходы.
до лярда можно не париться :)
Десятки миллионов
ну если 900 млн. и один сервер и ширина таблицы 500 полей (суммарно 2-3 кб), то я бы не советовал ReplacingMT, и надеятся на схлапывание дубликатов
>хочу использовать кликхаус для статистики (типа яндекс метрики) ReplacingMT здесь вроде не в тему. ну только если имеется ввиду что будут там хранить ивенты и пользователей, но тогда пользователей при лярде событий будет всего миллионы и тогда и ReplacingMT справится. и это всё на виртуалке в хецнере.
да тут у половины чатика мечта, досылать обновления ивентов через час, типа мы хотим репортить в риалтайме, но вот эти атрибуты прилетают с опозданием на 3 часа из другого источника и мы хотим что бы .... и в общем они бесконечно воюют с ReplacingMT
не знал, что так яндекс метрика умеет, но да ладно... хз зачем так делают :) просто новые ивенты шлёшь, обновляешь только пользователей, которых на несколько порядков меньше.
я честно говоря не знаю что делает метрика, я про нее знаю что там КХ. Просто я сам работаю в ад. компании с кликстримом, и у меня 4-6 млрд. широких ивентов в день и примерно представляю все проблемы и возможные подходы.
подскажите, как атрибуцируете? вне КХ
там обычная, базовая аналитика. я поэтому и говорю, что до лярда можно вообще не париться. это вообще песочница. у взрослых дядей нагрузки в тысячи раз выше.
Кластер Кассандры в 6 раз больше чем кх. Плюс постгре и миллион строк на джава
Обсуждают сегодня