в БД clickhouse?
Задача - сделать архитектуру для системы аналитики.
Как я понимаю, data valult не будет работать в силу того, что мы стараемся нормализовывать данные и наши разряженные индексы в таблице просто поетряют весь смысл и не будут эффективно работать. Мб стоит смотртеь в сторону Кимбола:
Разбивать источники на таблицы фактов и измерений. И по мере появления доп анилитики для бизнеса - делать новые таблицы на основе этих источников.
Когда я задался похожими вопросами, люди делали наоборот, выбирали технологии под нужды бизнеса (бизнес логику/требования)
Ну т.е. для этого случая стоит поднять какой-нибудь gp и на нём расскатить data vault и оттуда уже перегонять в click для быстрого доступа и аналитики? Нужды такие: делать свою erp систему. Забирать разные источники и из них генерировать разные аналитические выгрузки и передавать их на бэк
Я думаю так, да. Но опять же без нюансов)
Мы юзаем spark. Spark'ом денормализуем таблицы, там где можем и кидаем в CH. А над кликом посажем уже Superset
Ну, для спарка нужно много железа + это придётся самому раскатывать. К сожалению, этот вариант не подходит.
Мы в облаках. Там проще. У меня динамически кластер создаётся, считает и удаляется Только за квотами надо следить
Вот вопрос: А почему в целом не подходит вариант с Кимболом и в чем большое преимущество в data valut? Как я понимаю, у Кимбола проблема с большим количеством источников и с изменением данных. А data vault нужно вроде как использовать с кодогенерацией, только я пока что не очень понимаю, какие либы стоит юзать в этом случае ( вроде бы есть питонячая либа dbt )
Ну да, тут согласен.
Про железо вопрос спорный
не сочтите за наглость я также как-то начинал, вернее хотел начать сделать дата волт но... потом понял, что дата волт в принципе и не нужен)))) не всегда и не везде от него можно ощутить реальную пользу для 98% проектов архитектура будет гибрид Кимбалл - Инмон (да простят меня эти Отцы современных хранилищ) а прям по методологии Инмон наверно построен у 1% крупные компании, типа Яндекса, которые могут и вынуждены себе позволять требующей высокой квалификации архитектуры, и то упираются во всякие гибриды а-ля Data Vault 2.0 & Anchor (и назвали это hnhm) в общем, начните с простейшего - Кимбалла. Дальше по мере роста сложности задач.
Ну кимбал это уже 3нф, можно хуячить прям широкие витрины
инмон - 3нф если не ошибаюсь
Пара оксюморонов в одном предложении
Кимбалл - это денормализация, какая 3нф? Прям широкие витрины - это скорее OBT, т.е джойн кимбалловской таблицы фактов с измерениями
Кимбал проповедовал 3нф. Где-то в конце 90х был моделинг манифест
Факты и измерения и есть 3нф
Обсуждают сегодня