сетей / медиа площадок. Проект только в зародыше, встал вопрос о том как все это хранить. Кейс такой, один раз в день собирается статистика по миллионам групп, каналов. Сначала думали юзать для этих целей хадуп и его стек. Но, недавно, поговорил со своим коллегой, и он посоветовал кх: я поизучал, вроде подходит под мой кейс. Вопрос в следующем, чем может обернуться внедрение кх и подходит ли она идеально под такой кейс использования: постоянные инсерты новых данных, и частые селекты с агрегацией данных, ну и огромные селекты через Apache Spark для анализа данных?
Да. Только зачем Спарк? Всю аналитику можно сделать внутри CH
Обсуждают сегодня