Есть два стуладатасета: csv и json. В обоих данные о

пользователях, но из разных источников и включают разные поля. Партиционированы по датам. Задача слить это в один DWH.
Подскажите, как это по уму должно выглядеть? "Звезда" и "снежинка" — это про фактовые таблицы и измерения, насколько я понимаю, а вот эти данные — это просто измерения. Или поставить в центр данные об аккаунте, а в измерения вынести всякие даты, время, географию и пр.? Какую также СУБД можете порекомендовать для этого, какие инструменты для пайплайна и в целом какие рекомендации к тестам, производительности и т.п.? Имею опыт с Postgres, Hive, Scala, Kafka — ограничиться ими или что-то ещё подучить и взять сюда? По времени срочности нет.
Это тестовое задание, не буду скрывать, но тестовых на дата-инженера я ещё не делал, а хочется достаточно впечатлить, чтоб взяли.

2 ответов

21 просмотр

это вам сразу надо разбивать ваш DataLake на 3, а то и 4 слоя, реализовывать слой моделирования данных - например, на Data Vault 2.0

А есть разве требования обязательно пилить на факт-дименшон? Есть конечно всякое порево типа фактлесс-факт, но это для академиков

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Объясните, пожалуйста, почему компилятор ругается на использование в условии неинициализированной переменной: int x; Task.Run(async () => { x = await somefunc(); }).Wait...
Александр
5
Ребят, подскажите, пожалуйста, почему в префиксе к ассетам, которые генерируются через фильтр | theme в шаблоне, стал вдруг появляться index.php? Вот так выглядит ссылка на а...
Виталий
1
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
Блин, ребята, сори за тупые вопросы. А можно ли как-то открыть вебапку по нажатию на кнопку в меню(которое появляется слева, команды)?
Artem Stormageddon
3
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Коллеги, может знает кто, можно ли цвет бейджа счётчика в BackendMenu менять без бубнов?
Alex Blaze
3
Карта сайта