DAG'a ? А то я каждый раз выполняю cd <нужная директория>. Интуитивно кажется, что это лишняя команда, которую надо пихать в каждый DAG.
И сразу второй вопрос. У меня есть на сервере пайплайн: git pull -> train -> test. Pull обновляет содержимого всего проекта в том числе код DAG'a. Корректно ли с точки зрения Airflow будет работать такой пайплайн ?
Упрощенно как то так. Т.е. есть бд (одна или несколько) на входе, есть отдельная репа с модулями со скриптами, моделями и тд (дс-ый репозиторий), есть репозиторий etl где лежат все даги. Т.е. сами даги выступают оркестатором данных. На выходе опять же дс-ный репозиторий с кучей данных по результатам, которые мы например отдаем биайщикам
Стесняюсь спросить, но всё же. А что такое оркестратор данных ?
Обсуждают сегодня