Всем привет, вот такая тема. Поговорила тут с одним мужиком, он

Question

Всем привет, вот такая тема. Поговорила тут с одним мужиком, он

меня агитировал за покупной ETL.

Я говорю, ну неет, кастомизация через пятую точку. Вот питон, аирфлоу, все прозрачно и понятно.

И он мне рассказал свою историю. До сих пор у меня ещё не уложилось, как я к этому отношусь, а уже четыре дня прошло.

Говорит, устроился head of data science в немаленькую контору. И не прошло и короткое время, как весь отдел data-инженеров с их начальником свинтил в другое место, оставив ему в наследство greenplum, etl на питоне и apache airflow.

Наследство он, как подобает мужественно у человеку принял, одного человека уговорил задержаться для передачи дел.

И стал покупать покупной etl.

Что думаете обо всем об этом?

#hadoop #russian #software

0

28.05.2023

15 ответов

51 просмотр

Alex

более чем достаточно примеров средних команд где купить выходит дешевле небольшая команда - берёшь эйрфлоу и из говна и палок собираешь что-то средняя команда - тут начинается вопрос девешле держать команду которая будет пилить airflow или купить сразу готовое решение которое закроет почти всё большая команда - хватит денег оплачивать выделенную команду которая и поддерживать airflow будет, но чаще там сразу пилят что-то своё специфичное для конкретной компании p.s. у себя после оценки куда нам после узи двигаться двинулись в kubeflow с пониманием что мы его под себя дописываем частями, airflow после разбора решили что поддерживать будет слишком дорого по людским ресурсам

0

28.05.2023

Tatiana Egorova Egorova Автор вопроса

Alex
более чем достаточно примеров средних команд где к...

Спасибо👌🏻

0

28.05.2023

Максим Мартынов

Alex
более чем достаточно примеров средних команд где к...

Поддерживать Airflow с его обширной документацией, примерами, helm чартом и кучей плагинов дорого, а переписывать Kubeflow, где доки кот наплакал, все написано на Go и заточено в основном под ML, не дорого?

0

28.05.2023

Сиплый

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Зависит от команды и с чем люди умеют работать уже. Часто нелучшее знакомое лучше лучшего незнакомого

0

28.05.2023

Danny

Alex
более чем достаточно примеров средних команд где к...

А «купить готовое» - это о каких решениях речь?

0

28.05.2023

Alex

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

поддерживать airflow на 100+ девелоперов дорого строить свою обёртку поверх него тоже дорого (вместо yaml на выходе тебе нужно генерить python код) отсутствие как таковое апи у airflow для манипуляции тоже доставляет, всё есть файл который мы перечитываем регулярно чтобы проверить поменялся dag или нет ну вот почему нельзя один раз перечитать и впихнуть это в базу? примерно как и отсутвие api для возможно задания dag нового из апи, без необходимости генерить файл и монтировать его к airflow в любом случае был бы допил, что одного что другого, в некоторых вопросах airflow из коробки закрывает чуть больше наших проблем но вот сделать так чтобы он закрыл все вопросы по оценке стоимости вышло что "допил airflow vs допил kubeflow" второй выиграл, как и в оценке поддержки

0

28.05.2023

Tatiana Egorova Egorova Автор вопроса

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Мне кажется airflow более распространено и проще найти сотрудников на поддержку.

0

28.05.2023

Tatiana Egorova Egorova Автор вопроса

Alex
поддерживать airflow на 100+ девелоперов дорого с...

Я вот ничего не поняла, если честно. Поддерживать airflow на 100+ девелоперов, что это значит? Зачем обёртка? Как это вместо yaml - python code. Ямл и есть питон-код. Что за апи для аирфлоу? Какие файлы вы перечитывает, чтобы узнать, поменялся Даг или нет?

0

28.05.2023

Максим Мартынов

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

Airflow периодически перечитывает файлы с дагами, чтобы выявить изменения

0

28.05.2023

Alex

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

100+ активных пользователей причём это оценка снизу сугубо датасатанистов, вообще пользователей в 2-3 раза больше далеко не все знают питон (сюрприииииз) имеются как статисты (которые только в R умеют и у них есть cli "вот этот код, пожалуйста задеплой", так и другие пользователи со скалой/котлином) поэтому для них есть UI куда могут закинуть ямл с шагами и уже что нужно в бекенд выгенерится (хочешь узи, хочешь кубефлоу) в общем пользователи разные и просить писать питон код их немного неправильно, следовательно вопрос "какая из систем будет проще для реализации бекенда под это всё" для датасатанистов сейчас ещё и databand (https://databand.ai/) активно используем они могут прямо в питон коде накидать аннотаций и выплюнет это на выполнение и хоть они и используют airflow под капотом местами, но на стыке мы уже не раз ловили веселье сейчас есть реализация допиленная своя чтобы с пинимальными изменениями кода перевезти все эти пайплайны на кубефлоу

0

28.05.2023

Tatiana Egorova Egorova Автор вопроса

Alex
100+ активных пользователей причём это оценка сниз...

А пользователи, они таким образом витрины хотят получить?

0

28.05.2023

Alex

Tatiana Egorova Egorova
А пользователи, они таким образом витрины хотят по...

не совсем етл и не только им ограничивается единый оркестрейшен сервис для мл, етл, просто скедулед задач "хочу раз в час запустить джобу, посчитать и послать результат на емейл"

0

28.05.2023

Tatiana Egorova Egorova Автор вопроса

Alex
не совсем етл и не только им ограничивается едины...

А зачем разовые выборки обязательно через оркестратор должны запускаться?

0

28.05.2023

Sintetik

Ну эти тулзы и были придуманы, чтобы делать etl без кодирования, в идеале визуально стрелочками и квадратиками. В реальности получается визуал плюс sql. Недаром они стоят миллионы и их платят.

0

29.05.2023

Сиплый · Accepted Answer

Сиплый

Не существует идеальногг решения buy V.S. build И абсолютная норма - взять технологии, с которыми уже имел дело. Пусть даже выбор не идеален

0

28.05.2023

52 похожих чатов

Всем привет, вот такая тема. Поговорила тут с одним мужиком, он

15 ответов

Похожие вопросы