Всем привет, вот такая тема. Поговорила тут с одним мужиком, он

меня агитировал за покупной ETL.

Я говорю, ну неет, кастомизация через пятую точку. Вот питон, аирфлоу, все прозрачно и понятно.

И он мне рассказал свою историю. До сих пор у меня ещё не уложилось, как я к этому отношусь, а уже четыре дня прошло.

Говорит, устроился head of data science в немаленькую контору. И не прошло и короткое время, как весь отдел data-инженеров с их начальником свинтил в другое место, оставив ему в наследство greenplum, etl на питоне и apache airflow.

Наследство он, как подобает мужественно у человеку принял, одного человека уговорил задержаться для передачи дел.

И стал покупать покупной etl.

Что думаете обо всем об этом?

15 ответов

18 просмотров

Не существует идеальногг решения buy V.S. build И абсолютная норма - взять технологии, с которыми уже имел дело. Пусть даже выбор не идеален

более чем достаточно примеров средних команд где купить выходит дешевле небольшая команда - берёшь эйрфлоу и из говна и палок собираешь что-то средняя команда - тут начинается вопрос девешле держать команду которая будет пилить airflow или купить сразу готовое решение которое закроет почти всё большая команда - хватит денег оплачивать выделенную команду которая и поддерживать airflow будет, но чаще там сразу пилят что-то своё специфичное для конкретной компании p.s. у себя после оценки куда нам после узи двигаться двинулись в kubeflow с пониманием что мы его под себя дописываем частями, airflow после разбора решили что поддерживать будет слишком дорого по людским ресурсам

Alex
более чем достаточно примеров средних команд где к...

Поддерживать Airflow с его обширной документацией, примерами, helm чартом и кучей плагинов дорого, а переписывать Kubeflow, где доки кот наплакал, все написано на Go и заточено в основном под ML, не дорого?

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Зависит от команды и с чем люди умеют работать уже. Часто нелучшее знакомое лучше лучшего незнакомого

Alex
более чем достаточно примеров средних команд где к...

А «купить готовое» - это о каких решениях речь?

Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

поддерживать airflow на 100+ девелоперов дорого строить свою обёртку поверх него тоже дорого (вместо yaml на выходе тебе нужно генерить python код) отсутствие как таковое апи у airflow для манипуляции тоже доставляет, всё есть файл который мы перечитываем регулярно чтобы проверить поменялся dag или нет ну вот почему нельзя один раз перечитать и впихнуть это в базу? примерно как и отсутвие api для возможно задания dag нового из апи, без необходимости генерить файл и монтировать его к airflow в любом случае был бы допил, что одного что другого, в некоторых вопросах airflow из коробки закрывает чуть больше наших проблем но вот сделать так чтобы он закрыл все вопросы по оценке стоимости вышло что "допил airflow vs допил kubeflow" второй выиграл, как и в оценке поддержки

Tatiana Egorova-Egorova Автор вопроса
Максим Мартынов
Поддерживать Airflow с его обширной документацией,...

Мне кажется airflow более распространено и проще найти сотрудников на поддержку.

Tatiana Egorova-Egorova Автор вопроса
Alex
поддерживать airflow на 100+ девелоперов дорого с...

Я вот ничего не поняла, если честно. Поддерживать airflow на 100+ девелоперов, что это значит? Зачем обёртка? Как это вместо yaml - python code. Ямл и есть питон-код. Что за апи для аирфлоу? Какие файлы вы перечитывает, чтобы узнать, поменялся Даг или нет?

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

Airflow периодически перечитывает файлы с дагами, чтобы выявить изменения

Tatiana Egorova Egorova
Я вот ничего не поняла, если честно. Поддерживать...

100+ активных пользователей причём это оценка снизу сугубо датасатанистов, вообще пользователей в 2-3 раза больше далеко не все знают питон (сюрприииииз) имеются как статисты (которые только в R умеют и у них есть cli "вот этот код, пожалуйста задеплой", так и другие пользователи со скалой/котлином) поэтому для них есть UI куда могут закинуть ямл с шагами и уже что нужно в бекенд выгенерится (хочешь узи, хочешь кубефлоу) в общем пользователи разные и просить писать питон код их немного неправильно, следовательно вопрос "какая из систем будет проще для реализации бекенда под это всё" для датасатанистов сейчас ещё и databand (https://databand.ai/) активно используем они могут прямо в питон коде накидать аннотаций и выплюнет это на выполнение и хоть они и используют airflow под капотом местами, но на стыке мы уже не раз ловили веселье сейчас есть реализация допиленная своя чтобы с пинимальными изменениями кода перевезти все эти пайплайны на кубефлоу

Tatiana Egorova-Egorova Автор вопроса
Alex
100+ активных пользователей причём это оценка сниз...

А пользователи, они таким образом витрины хотят получить?

Tatiana Egorova Egorova
А пользователи, они таким образом витрины хотят по...

не совсем етл и не только им ограничивается единый оркестрейшен сервис для мл, етл, просто скедулед задач "хочу раз в час запустить джобу, посчитать и послать результат на емейл"

Tatiana Egorova-Egorova Автор вопроса
Alex
не совсем етл и не только им ограничивается едины...

А зачем разовые выборки обязательно через оркестратор должны запускаться?

Ну эти тулзы и были придуманы, чтобы делать etl без кодирования, в идеале визуально стрелочками и квадратиками. В реальности получается визуал плюс sql. Недаром они стоят миллионы и их платят.

Похожие вопросы

Обсуждают сегодня

Подскажите, а есть vault lite или ченить такое?) А то нужен вольт для похода в вольт, но весит он ~500 мб) как-то многовато для парочки запросов ))
Alexandr Orloff
17
Всем привет, есть небольшая проблема Есть такой скрипт document.addEventListener('DOMContentLoaded', function () { const sliderTabs = document.querySelectorAll('.s...
A da
8
@go1337 @dblackCat Привет. Все ещё дрочусь с fastpanel. Добавил второй домен который должен смотреть в рут того же сайта, но так как это просто домен, а не сайт, я не могу ему...
Ross 🦴
9
До речі, в ево нема можливості чи якого розширення щоб з адмінки з телефона зайти і терміново щось в верстці поправити?
Женя
7
кто-нибудь пользуется тайм-трекерами во время работы? так много разных нагуглил, может есть что-то популярное
Lencore
8
Пацаны. Я разрабатываю софт для инвайтинга на телетон, и столкнулся с такой проблемой, в один из чатов не могу приглашать никого, не дает добавлять, в то же время через официа...
Kernel Panic
11
Скажите, а кому нужен Currency как отдельный плагин вместо полноценного ecommerce в OctoberCMS? Кто-то использует его уже или планирует в будущем? Может я что-то не понимаю?
Igor
13
Розмовами про Рево мені нагадали часи, коли шаблони правилися прямо в адмінці. Хто в курсі, чому відійшли від цієї практики, так блейд не працює? Доволі зручно ж було (інколи)
Женя
3
Всем добрый вечер, Рад оказаться в кругу единомышленников. Начинаю погружаться в мир .net веба. Зовут Ерасыл 🖖 У меня назрел вопрос: Какой процент проектов, прошедшие через в...
Ерасыл
6
Чому? Да тому що без GiT не уявляю нормального проекта а коли код в базі то то так собі
Dmytro Lukianenko
3
Карта сайта