Всем привет, вот такая тема. Поговорила тут с одним мужиком, он

меня агитировал за покупной ETL.

Я говорю, ну неет, кастомизация через пятую точку. Вот питон, аирфлоу, все прозрачно и понятно.

И он мне рассказал свою историю. До сих пор у меня ещё не уложилось, как я к этому отношусь, а уже четыре дня прошло.

Говорит, устроился head of data science в немаленькую контору. И не прошло и короткое время, как весь отдел data-инженеров с их начальником свинтил в другое место, оставив ему в наследство greenplum, etl на питоне и apache airflow.

Наследство он, как подобает мужественно у человеку принял, одного человека уговорил задержаться для передачи дел.

И стал покупать покупной etl.

Что думаете обо всем об этом?

15 ответов

25 просмотров

Не существует идеальногг решения buy V.S. build И абсолютная норма - взять технологии, с которыми уже имел дело. Пусть даже выбор не идеален

более чем достаточно примеров средних команд где купить выходит дешевле небольшая команда - берёшь эйрфлоу и из говна и палок собираешь что-то средняя команда - тут начинается вопрос девешле держать команду которая будет пилить airflow или купить сразу готовое решение которое закроет почти всё большая команда - хватит денег оплачивать выделенную команду которая и поддерживать airflow будет, но чаще там сразу пилят что-то своё специфичное для конкретной компании p.s. у себя после оценки куда нам после узи двигаться двинулись в kubeflow с пониманием что мы его под себя дописываем частями, airflow после разбора решили что поддерживать будет слишком дорого по людским ресурсам

Alex
более чем достаточно примеров средних команд где к...

Поддерживать Airflow с его обширной документацией, примерами, helm чартом и кучей плагинов дорого, а переписывать Kubeflow, где доки кот наплакал, все написано на Go и заточено в основном под ML, не дорого?

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Зависит от команды и с чем люди умеют работать уже. Часто нелучшее знакомое лучше лучшего незнакомого

Alex
более чем достаточно примеров средних команд где к...

А «купить готовое» - это о каких решениях речь?

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

поддерживать airflow на 100+ девелоперов дорого строить свою обёртку поверх него тоже дорого (вместо yaml на выходе тебе нужно генерить python код) отсутствие как таковое апи у airflow для манипуляции тоже доставляет, всё есть файл который мы перечитываем регулярно чтобы проверить поменялся dag или нет ну вот почему нельзя один раз перечитать и впихнуть это в базу? примерно как и отсутвие api для возможно задания dag нового из апи, без необходимости генерить файл и монтировать его к airflow в любом случае был бы допил, что одного что другого, в некоторых вопросах airflow из коробки закрывает чуть больше наших проблем но вот сделать так чтобы он закрыл все вопросы по оценке стоимости вышло что "допил airflow vs допил kubeflow" второй выиграл, как и в оценке поддержки

Tatiana Egorova-Egorova Автор вопроса
Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Мне кажется airflow более распространено и проще найти сотрудников на поддержку.

Tatiana Egorova-Egorova Автор вопроса
Alex
поддерживать airflow на 100+ девелоперов дорого с...

Я вот ничего не поняла, если честно. Поддерживать airflow на 100+ девелоперов, что это значит? Зачем обёртка? Как это вместо yaml - python code. Ямл и есть питон-код. Что за апи для аирфлоу? Какие файлы вы перечитывает, чтобы узнать, поменялся Даг или нет?

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

Airflow периодически перечитывает файлы с дагами, чтобы выявить изменения

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

100+ активных пользователей причём это оценка снизу сугубо датасатанистов, вообще пользователей в 2-3 раза больше далеко не все знают питон (сюрприииииз) имеются как статисты (которые только в R умеют и у них есть cli "вот этот код, пожалуйста задеплой", так и другие пользователи со скалой/котлином) поэтому для них есть UI куда могут закинуть ямл с шагами и уже что нужно в бекенд выгенерится (хочешь узи, хочешь кубефлоу) в общем пользователи разные и просить писать питон код их немного неправильно, следовательно вопрос "какая из систем будет проще для реализации бекенда под это всё" для датасатанистов сейчас ещё и databand (https://databand.ai/) активно используем они могут прямо в питон коде накидать аннотаций и выплюнет это на выполнение и хоть они и используют airflow под капотом местами, но на стыке мы уже не раз ловили веселье сейчас есть реализация допиленная своя чтобы с пинимальными изменениями кода перевезти все эти пайплайны на кубефлоу

Tatiana Egorova-Egorova Автор вопроса
Alex
100+ активных пользователей причём это оценка сниз...

А пользователи, они таким образом витрины хотят получить?

Tatiana Egorova Egorova
А пользователи, они таким образом витрины хотят по...

не совсем етл и не только им ограничивается единый оркестрейшен сервис для мл, етл, просто скедулед задач "хочу раз в час запустить джобу, посчитать и послать результат на емейл"

Tatiana Egorova-Egorova Автор вопроса
Alex
не совсем етл и не только им ограничивается едины...

А зачем разовые выборки обязательно через оркестратор должны запускаться?

Ну эти тулзы и были придуманы, чтобы делать etl без кодирования, в идеале визуально стрелочками и квадратиками. В реальности получается визуал плюс sql. Недаром они стоят миллионы и их платят.

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Объясните, пожалуйста, почему компилятор ругается на использование в условии неинициализированной переменной: int x; Task.Run(async () => { x = await somefunc(); }).Wait...
Александр
5
Ребят, подскажите, пожалуйста, почему в префиксе к ассетам, которые генерируются через фильтр | theme в шаблоне, стал вдруг появляться index.php? Вот так выглядит ссылка на а...
Виталий
1
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
Блин, ребята, сори за тупые вопросы. А можно ли как-то открыть вебапку по нажатию на кнопку в меню(которое появляется слева, команды)?
Artem Stormageddon
3
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Коллеги, может знает кто, можно ли цвет бейджа счётчика в BackendMenu менять без бубнов?
Alex Blaze
3
Карта сайта