меня агитировал за покупной ETL.
Я говорю, ну неет, кастомизация через пятую точку. Вот питон, аирфлоу, все прозрачно и понятно.
И он мне рассказал свою историю. До сих пор у меня ещё не уложилось, как я к этому отношусь, а уже четыре дня прошло.
Говорит, устроился head of data science в немаленькую контору. И не прошло и короткое время, как весь отдел data-инженеров с их начальником свинтил в другое место, оставив ему в наследство greenplum, etl на питоне и apache airflow.
Наследство он, как подобает мужественно у человеку принял, одного человека уговорил задержаться для передачи дел.
И стал покупать покупной etl.
Что думаете обо всем об этом?
Не существует идеальногг решения buy V.S. build И абсолютная норма - взять технологии, с которыми уже имел дело. Пусть даже выбор не идеален
более чем достаточно примеров средних команд где купить выходит дешевле небольшая команда - берёшь эйрфлоу и из говна и палок собираешь что-то средняя команда - тут начинается вопрос девешле держать команду которая будет пилить airflow или купить сразу готовое решение которое закроет почти всё большая команда - хватит денег оплачивать выделенную команду которая и поддерживать airflow будет, но чаще там сразу пилят что-то своё специфичное для конкретной компании p.s. у себя после оценки куда нам после узи двигаться двинулись в kubeflow с пониманием что мы его под себя дописываем частями, airflow после разбора решили что поддерживать будет слишком дорого по людским ресурсам
Поддерживать Airflow с его обширной документацией, примерами, helm чартом и кучей плагинов дорого, а переписывать Kubeflow, где доки кот наплакал, все написано на Go и заточено в основном под ML, не дорого?
Зависит от команды и с чем люди умеют работать уже. Часто нелучшее знакомое лучше лучшего незнакомого
А «купить готовое» - это о каких решениях речь?
поддерживать airflow на 100+ девелоперов дорого строить свою обёртку поверх него тоже дорого (вместо yaml на выходе тебе нужно генерить python код) отсутствие как таковое апи у airflow для манипуляции тоже доставляет, всё есть файл который мы перечитываем регулярно чтобы проверить поменялся dag или нет ну вот почему нельзя один раз перечитать и впихнуть это в базу? примерно как и отсутвие api для возможно задания dag нового из апи, без необходимости генерить файл и монтировать его к airflow в любом случае был бы допил, что одного что другого, в некоторых вопросах airflow из коробки закрывает чуть больше наших проблем но вот сделать так чтобы он закрыл все вопросы по оценке стоимости вышло что "допил airflow vs допил kubeflow" второй выиграл, как и в оценке поддержки
Мне кажется airflow более распространено и проще найти сотрудников на поддержку.
Я вот ничего не поняла, если честно. Поддерживать airflow на 100+ девелоперов, что это значит? Зачем обёртка? Как это вместо yaml - python code. Ямл и есть питон-код. Что за апи для аирфлоу? Какие файлы вы перечитывает, чтобы узнать, поменялся Даг или нет?
Airflow периодически перечитывает файлы с дагами, чтобы выявить изменения
100+ активных пользователей причём это оценка снизу сугубо датасатанистов, вообще пользователей в 2-3 раза больше далеко не все знают питон (сюрприииииз) имеются как статисты (которые только в R умеют и у них есть cli "вот этот код, пожалуйста задеплой", так и другие пользователи со скалой/котлином) поэтому для них есть UI куда могут закинуть ямл с шагами и уже что нужно в бекенд выгенерится (хочешь узи, хочешь кубефлоу) в общем пользователи разные и просить писать питон код их немного неправильно, следовательно вопрос "какая из систем будет проще для реализации бекенда под это всё" для датасатанистов сейчас ещё и databand (https://databand.ai/) активно используем они могут прямо в питон коде накидать аннотаций и выплюнет это на выполнение и хоть они и используют airflow под капотом местами, но на стыке мы уже не раз ловили веселье сейчас есть реализация допиленная своя чтобы с пинимальными изменениями кода перевезти все эти пайплайны на кубефлоу
А пользователи, они таким образом витрины хотят получить?
не совсем етл и не только им ограничивается единый оркестрейшен сервис для мл, етл, просто скедулед задач "хочу раз в час запустить джобу, посчитать и послать результат на емейл"
А зачем разовые выборки обязательно через оркестратор должны запускаться?
Ну эти тулзы и были придуманы, чтобы делать etl без кодирования, в идеале визуально стрелочками и квадратиками. В реальности получается визуал плюс sql. Недаром они стоят миллионы и их платят.
Обсуждают сегодня