Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL

скриптами - DDL таблиц сырья и витрин + DML наполенения всего этого добра. Задача - построить графы зависимостей витрин от других витрин и сырья. В идеале на выходе надо иметь UI с полюшком, в которое вводишь имя витрины - он тебе строит граф со всеми зависимостями. Вопрос. Существует ли какое-то готовое решение для этих целей (хотя бы построение графов на основе файлов в файловой системе) или же надо самому писать?

16 ответов

9 просмотров

Коммерческие продукты точно имеют такой модуль парсинга (вроде у collibra есть). Также есть открытые библиотеки, которые помогают парсить SQL. В целом вся эта тема называется lineage и он как правило доступен в Data Catalog’ах (есть куча открытых: DataHub, Amundsen, Apache Atlas, etc, а также проприетарных: Alation, Collibra, etc)

Dmitry-Andreev Автор вопроса

Если все sql - можно и на Dbt переехать. Там тоже lineage есть из коробки. https://github.com/dbt-labs/dbt-core Предложенные выше варианты Data catalog ов - тоже вариант, но это больше для крупных корпоративных Data platform

Dmitry-Andreev Автор вопроса

Большая часть витрин (во всяком случае в моей команде) наполняется через airflow hiveoperator, но в целом данные так же льются NiFi процессами и spark’ом, так что боюсь dbt не вариант. Особенно с формулировкой «можно переехать» :) но все равно спасибо

Dmitry Andreev
Большая часть витрин (во всяком случае в моей кома...

Понял, да - не вариант) тогда важно обращать внимание на интеграции из коробки - к примеру у Atlas а точно есть интеграции со всем стеком описанным - hive, nifi, airflow (со спарком там тоже есть, но она не совсем подходит под человекочитаемый Data lineage) . У остальных что то похожее тоже есть (datahub/amundsen), но в живую не проверял

И еще из платного https://getmanta.com/

А на чем сейчас оркестрации строится?

Взять calcite и сделать самому linage

Amundsen и Datahub это каталоги для data discovery, а не для data governance, это разные задачи (хотя соприкасаются)

Anton Zadorozhniy
Amundsen и Datahub это каталоги для data discovery...

Ну, как-бы, уже нет. "DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity." Так, исторически, назвали функцию Амундсена. Но, по факту, вокруг них строятся полноценные решения для computational data governance.

Мы так и делали, только мы парсили репозиторий етл инструмента, результат загружали в neo4j, на выходе граф с составом источников по витрине или влияние витрины на другие загрузки

Roman S
Ну, как-бы, уже нет. "DataHub's extensible metadat...

Да, я по факту перепутал датахаб с другим проектом. Они как раз от governance строятся и так себе умеют дата дискавери.

Похожие вопросы

Обсуждают сегодня

Приветы. Если бот доступен только пользователям из России и Беларуси, старсы для него неизбежны? Как Apple планируется собирать платежи с покупок в сторе на территориях, где у...
Prokhor Chulkov
8
Вопрос в другом, кто нибудь вообще понял как жаловаться на незаконные платежи?
■_|ilya|_■
8
кто-нибудь отправлял ли групповые медиа с entites? что бы были гипер ссылки const result = await this.client.invoke( new Api.messages.SendMultiMedia({ silen...
Kokni
2
Qq, возможно сталкивался кто Повесил на бота обработку апдейтов типа chat_member, при этом апдейты доходят только когда с ботом что-то делают, на саб/ансаб юзеров ему насрать...
𐌍𐌄 ᕓ𐌄𐌓𐌌Ꝋ𐌓𐌄
13
всем привет. может кто-нибудь сталкивался с такой проблемой? отсылали базу в odoo upgrade service с 12 на 17 версию, в базе которую они прислали в ответ заметили вот такие стр...
Pavel
6
К слову кому-то интересен форк октября без twig? А то где-то на старых хардах валялся с вырезанным twig и возвращенным blade)) Есть ли смысл Харды искать, и на них копатся?)
Vladimir 
10
Всем привет еще раз. Медленно но верно вроде получается, но новые грабли Как решить проблему, что не может выбрать лидера? Менял на 1 инстанс, на разные интейрфейсы выставлял...
Sergey Ivanov
5
А в последней версии можно в repeater положить fileupload?
Ross
8
товарищи, никто не сталкивался в плане юзерботов на пирограме? - при попытке отправить по ид выдаёт ошибку мол пир четотам не найден, а при отправке по юзернейму всё штатно
kn
5
Короче я тут узнал полный пиздец Что кучу постов которые я создавал через posted Спустя время не могу редактировать и менять Мол телега возвращае ошибку Это реально так ...
inc.
13
Карта сайта