Всем привет, вот такая тема. Поговорила тут с одним мужиком, он

меня агитировал за покупной ETL.

Я говорю, ну неет, кастомизация через пятую точку. Вот питон, аирфлоу, все прозрачно и понятно.

И он мне рассказал свою историю. До сих пор у меня ещё не уложилось, как я к этому отношусь, а уже четыре дня прошло.

Говорит, устроился head of data science в немаленькую контору. И не прошло и короткое время, как весь отдел data-инженеров с их начальником свинтил в другое место, оставив ему в наследство greenplum, etl на питоне и apache airflow.

Наследство он, как подобает мужественно у человеку принял, одного человека уговорил задержаться для передачи дел.

И стал покупать покупной etl.

Что думаете обо всем об этом?

15 ответов

24 просмотра

Не существует идеальногг решения buy V.S. build И абсолютная норма - взять технологии, с которыми уже имел дело. Пусть даже выбор не идеален

более чем достаточно примеров средних команд где купить выходит дешевле небольшая команда - берёшь эйрфлоу и из говна и палок собираешь что-то средняя команда - тут начинается вопрос девешле держать команду которая будет пилить airflow или купить сразу готовое решение которое закроет почти всё большая команда - хватит денег оплачивать выделенную команду которая и поддерживать airflow будет, но чаще там сразу пилят что-то своё специфичное для конкретной компании p.s. у себя после оценки куда нам после узи двигаться двинулись в kubeflow с пониманием что мы его под себя дописываем частями, airflow после разбора решили что поддерживать будет слишком дорого по людским ресурсам

Alex
более чем достаточно примеров средних команд где к...

Поддерживать Airflow с его обширной документацией, примерами, helm чартом и кучей плагинов дорого, а переписывать Kubeflow, где доки кот наплакал, все написано на Go и заточено в основном под ML, не дорого?

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Зависит от команды и с чем люди умеют работать уже. Часто нелучшее знакомое лучше лучшего незнакомого

Alex
более чем достаточно примеров средних команд где к...

А «купить готовое» - это о каких решениях речь?

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

поддерживать airflow на 100+ девелоперов дорого строить свою обёртку поверх него тоже дорого (вместо yaml на выходе тебе нужно генерить python код) отсутствие как таковое апи у airflow для манипуляции тоже доставляет, всё есть файл который мы перечитываем регулярно чтобы проверить поменялся dag или нет ну вот почему нельзя один раз перечитать и впихнуть это в базу? примерно как и отсутвие api для возможно задания dag нового из апи, без необходимости генерить файл и монтировать его к airflow в любом случае был бы допил, что одного что другого, в некоторых вопросах airflow из коробки закрывает чуть больше наших проблем но вот сделать так чтобы он закрыл все вопросы по оценке стоимости вышло что "допил airflow vs допил kubeflow" второй выиграл, как и в оценке поддержки

Tatiana Egorova-Egorova Автор вопроса
Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Мне кажется airflow более распространено и проще найти сотрудников на поддержку.

Tatiana Egorova-Egorova Автор вопроса
Alex
поддерживать airflow на 100+ девелоперов дорого с...

Я вот ничего не поняла, если честно. Поддерживать airflow на 100+ девелоперов, что это значит? Зачем обёртка? Как это вместо yaml - python code. Ямл и есть питон-код. Что за апи для аирфлоу? Какие файлы вы перечитывает, чтобы узнать, поменялся Даг или нет?

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

Airflow периодически перечитывает файлы с дагами, чтобы выявить изменения

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

100+ активных пользователей причём это оценка снизу сугубо датасатанистов, вообще пользователей в 2-3 раза больше далеко не все знают питон (сюрприииииз) имеются как статисты (которые только в R умеют и у них есть cli "вот этот код, пожалуйста задеплой", так и другие пользователи со скалой/котлином) поэтому для них есть UI куда могут закинуть ямл с шагами и уже что нужно в бекенд выгенерится (хочешь узи, хочешь кубефлоу) в общем пользователи разные и просить писать питон код их немного неправильно, следовательно вопрос "какая из систем будет проще для реализации бекенда под это всё" для датасатанистов сейчас ещё и databand (https://databand.ai/) активно используем они могут прямо в питон коде накидать аннотаций и выплюнет это на выполнение и хоть они и используют airflow под капотом местами, но на стыке мы уже не раз ловили веселье сейчас есть реализация допиленная своя чтобы с пинимальными изменениями кода перевезти все эти пайплайны на кубефлоу

Tatiana Egorova-Egorova Автор вопроса
Alex
100+ активных пользователей причём это оценка сниз...

А пользователи, они таким образом витрины хотят получить?

Tatiana Egorova Egorova
А пользователи, они таким образом витрины хотят по...

не совсем етл и не только им ограничивается единый оркестрейшен сервис для мл, етл, просто скедулед задач "хочу раз в час запустить джобу, посчитать и послать результат на емейл"

Tatiana Egorova-Egorova Автор вопроса
Alex
не совсем етл и не только им ограничивается едины...

А зачем разовые выборки обязательно через оркестратор должны запускаться?

Ну эти тулзы и были придуманы, чтобы делать etl без кодирования, в идеале визуально стрелочками и квадратиками. В реальности получается визуал плюс sql. Недаром они стоят миллионы и их платят.

Похожие вопросы

Обсуждают сегодня

Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Добрый день. Мне посоветовали обратиться к вам в чат за помощью. Ситуация описана на скрине. Как мне сказали, мне на бота навесили флудвейт. Есть ли возможность снять его ра...
OVERLINK
7
Просто по очереди выпиливаешь на ручной маппинг? По методу за раз
Andrii Kurdiumov
7
И? Все равно глазами проверять надо каждое поле
Andrii Kurdiumov
4
Ну есть у нас десяток компаний которым надо. Остальным то зачем?
Andrii Kurdiumov
4
Приветствую. А не подскажете какие ограничения есть на использования api метода setMyName ? Несколько раз сменил имя бота и получил бан на 2 месяца на смену имени.
Slick Slack
8
Всем привет! Взялся портировать модули на 18 версию, лезет _logger.log(log_level, 'no translation language detected, skipping translation %s', frame, stack_info=True) А чт...
Max Lit
3
Доброе утро, а кто то делал Google аналитику через php ? curl_setopt($ch, CURLOPT_NOSIGNAL, true); Это должно быть async без ожидания ответа. Вообще php нормально с таким с...
Max Dubovsky
9
Привет, коллеги! Возникла задача ограничить максимальный размер вложений для определённых расширений, например, чтобы для изображений лимит был 10 МБ, а для видео — 100 МБ. Ог...
Andro
1
Всем привет, добавляю поля в админку через контроллер взависимости от id, поля отображаются, сохраняются в бд, но не редактируются в админке, кто-то сталкивался с таким?
Catherine Poll
4
Карта сайта