Есть два стуладатасета: csv и json. В обоих данные о

пользователях, но из разных источников и включают разные поля. Партиционированы по датам. Задача слить это в один DWH.
Подскажите, как это по уму должно выглядеть? "Звезда" и "снежинка" — это про фактовые таблицы и измерения, насколько я понимаю, а вот эти данные — это просто измерения. Или поставить в центр данные об аккаунте, а в измерения вынести всякие даты, время, географию и пр.? Какую также СУБД можете порекомендовать для этого, какие инструменты для пайплайна и в целом какие рекомендации к тестам, производительности и т.п.? Имею опыт с Postgres, Hive, Scala, Kafka — ограничиться ими или что-то ещё подучить и взять сюда? По времени срочности нет.
Это тестовое задание, не буду скрывать, но тестовых на дата-инженера я ещё не делал, а хочется достаточно впечатлить, чтоб взяли.

2 ответов

8 просмотров

это вам сразу надо разбивать ваш DataLake на 3, а то и 4 слоя, реализовывать слой моделирования данных - например, на Data Vault 2.0

А есть разве требования обязательно пилить на факт-дименшон? Есть конечно всякое порево типа фактлесс-факт, но это для академиков

Похожие вопросы

Обсуждают сегодня

Привет, сталкивался кто с такой ситуацией? У меня есть модальное окно Bootstrap, в нем кнопка закрытия: <button type="button" class="btn-close" data-bs-dismiss="modal" aria-...
Виталий
3
А если изначально бот работал так : есть сайт онлайн школы. У каждого ученика свой кабинет. Где он авторизуется по своим данным. И уже в кабинете, на самом сайте делает оплату...
Денис 💡 Фрилансер
13
что это и почему оно? executor.start_polling(bot, skip_updates=True, on_startup=on_startup, File "/usr/local/lib/python3.10/dist-packages/aiogram/utils/executor.py", line 4...
𐌍𐌄 ᕓ𐌄𐌓𐌌Ꝋ𐌓𐌄
2
Напомните пожалуйста, v1.1 работает на PHP 8.2?
Ross
7
А что насчет FluentValidation? тоже ведь есть альтернатива у МС.
devman
13
Ребят, всем привет) Кто юзал/юзает Postgres? Я на MySQL сделал простенький сайт для диплома, но я внезапно обнаружил условие что надо было на Postgres) Проблема в том, что я н...
Dororo Steeeve
4
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Спасибо. Начну с клиент-сервер. Там разберусь И еще вопрос - можно ли как то джобы отправлять на определенные клиенты? Например есть vdi и linux машина. Можно ли задачу оправ...
Sergey Ivanov
4
Всем привет! подскажите, кто-то использовал vault + гео-распределенный etcd-кластер (мемберы в разных цодах)? какие есть подводные камни? и стоит ли вообще такое делать?
Василиса Васильева
4
Тут кто-то шарит в мед оборудовании?
Benz
10
Карта сайта