Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL

Question

Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL

скриптами - DDL таблиц сырья и витрин + DML наполенения всего этого добра. Задача - построить графы зависимостей витрин от других витрин и сырья. В идеале на выходе надо иметь UI с полюшком, в которое вводишь имя витрины - он тебе строит граф со всеми зависимостями. Вопрос. Существует ли какое-то готовое решение для этих целей (хотя бы построение графов на основе файлов в файловой системе) или же надо самому писать?

#hadoop #russian #software

0

17.10.2021

16 ответов

18 просмотров

Dmitry Andreev Автор вопроса

Alexey
Коммерческие продукты точно имеют такой модуль пар...

Оооок, спасибо за наводку :)

0

17.10.2021

carpediem

Если все sql - можно и на Dbt переехать. Там тоже lineage есть из коробки. https://github.com/dbt-labs/dbt-core Предложенные выше варианты Data catalog ов - тоже вариант, но это больше для крупных корпоративных Data platform

0

17.10.2021

Dmitry Andreev Автор вопроса

Большая часть витрин (во всяком случае в моей команде) наполняется через airflow hiveoperator, но в целом данные так же льются NiFi процессами и spark’ом, так что боюсь dbt не вариант. Особенно с формулировкой «можно переехать» :) но все равно спасибо

0

17.10.2021

carpediem

Dmitry Andreev
Большая часть витрин (во всяком случае в моей кома...

Понял, да - не вариант) тогда важно обращать внимание на интеграции из коробки - к примеру у Atlas а точно есть интеграции со всем стеком описанным - hive, nifi, airflow (со спарком там тоже есть, но она не совсем подходит под человекочитаемый Data lineage) . У остальных что то похожее тоже есть (datahub/amundsen), но в живую не проверял

0

17.10.2021

Sasha M

И еще из платного https://getmanta.com/

0

17.10.2021

Vladislav 👻 Shishkov

carpediem
Понял, да - не вариант) тогда важно обращать внима...

Атлас какашка

0

17.10.2021

Евгений Глотов

Vladislav 👻 Shishkov
Атлас какашка

А чё так?

0

17.10.2021

Minskiy2020

А на чем сейчас оркестрации строится?

0

17.10.2021

Dmitry Andreev Автор вопроса

Minskiy2020
А на чем сейчас оркестрации строится?

Airflow

0

17.10.2021

Dmitry Zuev

Взять calcite и сделать самому linage

0

17.10.2021

Anton Zadorozhniy

Amundsen и Datahub это каталоги для data discovery, а не для data governance, это разные задачи (хотя соприкасаются)

0

18.10.2021

Roman S

Anton Zadorozhniy
Amundsen и Datahub это каталоги для data discovery...

Ну, как-бы, уже нет. "DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity." Так, исторически, назвали функцию Амундсена. Но, по факту, вокруг них строятся полноценные решения для computational data governance.

0

18.10.2021

Vladislav Stepanov

Мы так и делали, только мы парсили репозиторий етл инструмента, результат загружали в neo4j, на выходе граф с составом источников по витрине или влияние витрины на другие загрузки

0

18.10.2021

Dmitry Andreev Автор вопроса

Vladislav Stepanov
Мы так и делали, только мы парсили репозиторий етл...

ну да, концепт +\- тот же

0

18.10.2021

Anton Zadorozhniy

Roman S
Ну, как-бы, уже нет. "DataHub's extensible metadat...

Да, я по факту перепутал датахаб с другим проектом. Они как раз от governance строятся и так себе умеют дата дискавери.

0

18.10.2021

Alexey · Accepted Answer

Коммерческие продукты точно имеют такой модуль парсинга (вроде у collibra есть). Также есть открытые библиотеки, которые помогают парсить SQL. В целом вся эта тема называется lineage и он как правило доступен в Data Catalog’ах (есть куча открытых: DataHub, Amundsen, Apache Atlas, etc, а также проприетарных: Alation, Collibra, etc)

52 похожих чатов

Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL

16 ответов

Похожие вопросы