пользователях, но из разных источников и включают разные поля. Партиционированы по датам. Задача слить это в один DWH.
Подскажите, как это по уму должно выглядеть? "Звезда" и "снежинка" — это про фактовые таблицы и измерения, насколько я понимаю, а вот эти данные — это просто измерения. Или поставить в центр данные об аккаунте, а в измерения вынести всякие даты, время, географию и пр.? Какую также СУБД можете порекомендовать для этого, какие инструменты для пайплайна и в целом какие рекомендации к тестам, производительности и т.п.? Имею опыт с Postgres, Hive, Scala, Kafka — ограничиться ими или что-то ещё подучить и взять сюда? По времени срочности нет.
Это тестовое задание, не буду скрывать, но тестовых на дата-инженера я ещё не делал, а хочется достаточно впечатлить, чтоб взяли.
это вам сразу надо разбивать ваш DataLake на 3, а то и 4 слоя, реализовывать слой моделирования данных - например, на Data Vault 2.0
А есть разве требования обязательно пилить на факт-дименшон? Есть конечно всякое порево типа фактлесс-факт, но это для академиков
Обсуждают сегодня