Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL

скриптами - DDL таблиц сырья и витрин + DML наполенения всего этого добра. Задача - построить графы зависимостей витрин от других витрин и сырья. В идеале на выходе надо иметь UI с полюшком, в которое вводишь имя витрины - он тебе строит граф со всеми зависимостями. Вопрос. Существует ли какое-то готовое решение для этих целей (хотя бы построение графов на основе файлов в файловой системе) или же надо самому писать?

16 ответов

8 просмотров

Коммерческие продукты точно имеют такой модуль парсинга (вроде у collibra есть). Также есть открытые библиотеки, которые помогают парсить SQL. В целом вся эта тема называется lineage и он как правило доступен в Data Catalog’ах (есть куча открытых: DataHub, Amundsen, Apache Atlas, etc, а также проприетарных: Alation, Collibra, etc)

Dmitry-Andreev Автор вопроса

Если все sql - можно и на Dbt переехать. Там тоже lineage есть из коробки. https://github.com/dbt-labs/dbt-core Предложенные выше варианты Data catalog ов - тоже вариант, но это больше для крупных корпоративных Data platform

Dmitry-Andreev Автор вопроса

Большая часть витрин (во всяком случае в моей команде) наполняется через airflow hiveoperator, но в целом данные так же льются NiFi процессами и spark’ом, так что боюсь dbt не вариант. Особенно с формулировкой «можно переехать» :) но все равно спасибо

Dmitry Andreev
Большая часть витрин (во всяком случае в моей кома...

Понял, да - не вариант) тогда важно обращать внимание на интеграции из коробки - к примеру у Atlas а точно есть интеграции со всем стеком описанным - hive, nifi, airflow (со спарком там тоже есть, но она не совсем подходит под человекочитаемый Data lineage) . У остальных что то похожее тоже есть (datahub/amundsen), но в живую не проверял

И еще из платного https://getmanta.com/

А на чем сейчас оркестрации строится?

Взять calcite и сделать самому linage

Amundsen и Datahub это каталоги для data discovery, а не для data governance, это разные задачи (хотя соприкасаются)

Anton Zadorozhniy
Amundsen и Datahub это каталоги для data discovery...

Ну, как-бы, уже нет. "DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity." Так, исторически, назвали функцию Амундсена. Но, по факту, вокруг них строятся полноценные решения для computational data governance.

Мы так и делали, только мы парсили репозиторий етл инструмента, результат загружали в neo4j, на выходе граф с составом источников по витрине или влияние витрины на другие загрузки

Roman S
Ну, как-бы, уже нет. "DataHub's extensible metadat...

Да, я по факту перепутал датахаб с другим проектом. Они как раз от governance строятся и так себе умеют дата дискавери.

Похожие вопросы

Обсуждают сегодня

А если изначально бот работал так : есть сайт онлайн школы. У каждого ученика свой кабинет. Где он авторизуется по своим данным. И уже в кабинете, на самом сайте делает оплату...
Денис 💡 Фрилансер
13
что это и почему оно? executor.start_polling(bot, skip_updates=True, on_startup=on_startup, File "/usr/local/lib/python3.10/dist-packages/aiogram/utils/executor.py", line 4...
𐌍𐌄 ᕓ𐌄𐌓𐌌Ꝋ𐌓𐌄
2
Напомните пожалуйста, v1.1 работает на PHP 8.2?
Ross
7
А что насчет FluentValidation? тоже ведь есть альтернатива у МС.
devman
13
Ребят, всем привет) Кто юзал/юзает Postgres? Я на MySQL сделал простенький сайт для диплома, но я внезапно обнаружил условие что надо было на Postgres) Проблема в том, что я н...
Dororo Steeeve
4
Спасибо. Начну с клиент-сервер. Там разберусь И еще вопрос - можно ли как то джобы отправлять на определенные клиенты? Например есть vdi и linux машина. Можно ли задачу оправ...
Sergey Ivanov
4
Всем привет! подскажите, кто-то использовал vault + гео-распределенный etcd-кластер (мемберы в разных цодах)? какие есть подводные камни? и стоит ли вообще такое делать?
Василиса Васильева
4
Читаю сейчас [нет, уже больше не читаю!] курсовую о Булгакове, написанную, похоже, с помощью ChatGPT. Это удивительный психоделический опыт. Текст в основном написан в стиле б...
✨ Uni [🌊 В отпуске]
1
Тут кто-то шарит в мед оборудовании?
Benz
10
Всем привет. Я только начал изучать nomad и есть несколько вопросов. Я хочу развернуть 1 сервер и 1 клиент чтобы потыкаться и пощупать как работает это. А можно ли развернуть...
Sergey Ivanov
2
Карта сайта