Есть два стуладатасета: csv и json. В обоих данные о

пользователях, но из разных источников и включают разные поля. Партиционированы по датам. Задача слить это в один DWH.
Подскажите, как это по уму должно выглядеть? "Звезда" и "снежинка" — это про фактовые таблицы и измерения, насколько я понимаю, а вот эти данные — это просто измерения. Или поставить в центр данные об аккаунте, а в измерения вынести всякие даты, время, географию и пр.? Какую также СУБД можете порекомендовать для этого, какие инструменты для пайплайна и в целом какие рекомендации к тестам, производительности и т.п.? Имею опыт с Postgres, Hive, Scala, Kafka — ограничиться ими или что-то ещё подучить и взять сюда? По времени срочности нет.
Это тестовое задание, не буду скрывать, но тестовых на дата-инженера я ещё не делал, а хочется достаточно впечатлить, чтоб взяли.

2 ответов

11 просмотров

это вам сразу надо разбивать ваш DataLake на 3, а то и 4 слоя, реализовывать слой моделирования данных - например, на Data Vault 2.0

А есть разве требования обязательно пилить на факт-дименшон? Есть конечно всякое порево типа фактлесс-факт, но это для академиков

Похожие вопросы

Обсуждают сегодня

Добрый день, не подскажите, если в OC-V3 поменять страндартную директорию /storage/ на /storage2/ - не будет сильно много проблем ?
Max Dubovsky
32
'frakturBold' => ['𝖆', '𝖇', '𝖈', '𝖉', '𝖊', '𝖋', '𝖌', '𝖍', '𝖎', '𝖏', '𝖐', '𝖑', '𝖒', '𝖓', '𝖔', '𝖕', '𝖖', '𝖗', '𝖘', '𝖙', '𝖚', '𝖛', '𝖜', '𝖝', '𝖞', '𝖟', '𝕬', '𝕭', '𝕮', '𝕯'...
Roma
4
А сколько часов мак держит зарядку в рабочем режиме? Например мой Redmi Mac (просто наклейка от айфона осталась, налепил) по началу держал часов 5 с парой открытых штормов и ...
Ross
7
Каким то образом можно определить ширину экрана пользователя перед загрузкой partial-а? Надо рассчитать ширину кадров слайдера для ресайза картинок для container-fluid.
Point 111
22
Ребят, а вот такой вопрос: если я владелец бота анонимного чата, в котором, например, имеются подписки, используя какую-нибудь ЮКассу (или тому подобное, в общем с налогами, в...
Eugene Неелов
8
Гнева и тупости пост. Как блять можно работать с маркетологами? Их в детстве всех родители случайно цепляли об дверные откосы? Поступила таска, на сайте "лишний счетчик Google...
Igor
4
а у тг (бот) апи вообще есть статусная страница, кстати?
e\\/gen
5
Вообще сейчас эти все провайдеры облаков оборзели. Если тебе нужно 4 ядра и 4 гб., хер где такую конфигурацию найдешь. Суют тебе сразу либо 8гб. либоа сразу 16 гб., они мне на...
Igor
4
Всем привет. А никто не в курсе у бота может быть заблокированна возможность принимать звезды? На одном боте вызываю sendInvoice с нужными параметрами все ок, на втором дела...
John Doe
2
За последнее время были какие-то изменения в работе ботов, принимающие заявки в каналы? Давно делал бота, сейчас открыл логи, а там сплошь Forbidden: bot can't initiate conve...
Lencore
1
Карта сайта