если команда скалистов не хочет писать простыни сиквел запросов?
Тогда они пилят свой Фреймворк
Сейчас расскажут, что если пишешь на датафреймах, то ТАМ ЖИ СЕРАВНО СИКУЭЛЬ ПОЛУЧАЕТСЯ На самом деле это реально проблема. Если у тебя SQL - то вроде все хорошо с дбт, но как начинается Not only SQL, то сразу цирк с конями и более генерализованные фреймворки типа эйрфлоу, префекта, дагстера Для самых просветленных в части девопса есть арго
А че так? Вроде бы ETL + spark давно уже на рынке, не поверю что нет достаточно хороших библиотек поверх спарка для етл пайплайнов
нафане и луиджи сто лет в обед, норм фреймворки еще можно на дженкинсе накрутить
Спасибо, посмотрю на нафане и луиджи, но идея с дженкинсом- это уже совсем извращенство))
нафаня - это nifi :)
Ага)
Джеркинс
Может быть скалистов сажать писать стандартные пайплайны это оверкил? Зависит конечно от конкретного проекта, но если скалисты прям пишут каждый маппинг, который можно выразить таблицей или селектом - мб тут есть пространство для автоматизации?
Согласен, но идея - взять готовую библиотеку etl с определенными готовыми экшнами (при необходимости допилить свои), сделать несколько пайплайнов, собрать основные паттерны. После можно научить неособо скилловых ребят писать по этим паттернам писать свои потоки данных. Плюс, смотрим на том чтоб запилить DQ + Data Lineage поверх этих пайплайнов (скажем после каждого этл шага пушить какие-то метрики)
то есть задача скалистов - написать такой фреймворк на Скале, что любой не-скалист сможет выстроить на нем пайплайн "без мамы и без папы"?
например
тут даже не столько речь о паттернах, а о стандартном подходе "от метаданных", когда у вас пайплайны задаются machine readable метаданными, которые вы интерпретируете/кодогенерируете, ну и весь остальной тулинг вроде DQ от них же строите
Почему "Для самых просветленных в части девопса есть арго" ?
Есть
Потому что арго
Гитопс там по желанию
Ясно, но есть argo wf там можно и не девопсам любимые всеми ямлы рисовать )
Ну тогда идеологически неверно :)
Гитопс с долгим деплоем (как у дата пайплайнов) не совместим просто, ну или вырождается в «публикацию», а фактический деплой происходит уже в рантайме)
Ну да, публикация, чтоб безобразно и единообразно
Обсуждают сегодня