Любезные братья! А что бы почитать/посмотреть по устройству Spark, чтобы как следует укрепиться в теории? Чтобы мне там рассказали, что такое Fetch и Shuffle. Чтобы вбили в м...
Ну проще запустить параллельно 2 airflow и поочередно переносить даги, не? Сломался - тут же разбираешься почему. А да! Обновления AF как-то кривовато работает. Хызы почему. Н...
ну а как? Что-то поменять все равно придется.
Народ, что можно использовать для gp вместо hdfs хадупа?
Ребят, привет! Нужна подсказка, которая определит мою судьбу. Я сейчас в Торонто работаю, как QA Engineer, недавно начал автоматизацией заниматься (TypeScript). Знакомый в про...
Привет, подскажите, пожалуйста, как лучше организовать структуру хранения данных. На входе у меня датасет с оборотами по банковским счетам. Данные в разрезе дней и счетов. Есл...
Коллеги, всем привет! У меня есть airflow (уже развернутый и работающий) и готовый локально docker контейнер со spark логикой. Мне нужно, чтобы airflow для определенной таски...
Народ, есть процедура которая собирает таблицу в постгре. Сама таблица 150 млн записей. А логов за месяц столько же выходит, в основном апдейты. Код процедуры ещё не смотрел, ...
Знатоки Databricks, прошу помощи. У нас есть контейнер с картинками в Azure Datalake Gen2. Причем часть картинок лежат в самом контейнере, а часть - во вложенных папках, типа ...
Всем привет, вот такая тема. Поговорила тут с одним мужиком, он меня агитировал за покупной ETL. Я говорю, ну неет, кастомизация через пятую точку. Вот питон, аирфлоу, все пр...
Всем привет)) Каким приложением пользуетесь для формирования списка задач? Чтобы можно было по людям таски раскидать Компания в РФ, нужно чтобы и прога была доступна здес...
Всем привет Вопрос про эффективное хранение метаданных Есть парсер товаров, у товаров помимо основных полей есть id (уникальный внешний бигинт авто инкремент), таймстамп сбора...
Всем привет. Есть вопрос по Spark&Databricks&Delta. Дескрипшн что происходит У меня есть сильвер таблицы разбитые скажем по кривым. От этих сильвер таблиц кормится голд слой (...
Trino: как перехать с Vertica, и как устроен его оптимизатор запросов? Расскажут эксперты компаний Avito и CedrusData на онлайн-митапе при поддержке JUG Ru Group. 24 ноября ...
Коллеги, вопрос у кого настроена интеграция S3(DeltaLake) -> Clickhouse Если у таблица партицирована, то мы получаем, что табличная функция deltaLake не подтягивает колонку п...
Добрый день, подскажите кто какие ETL инструменты используют и на какие обратить внимание, если в основном задачи по массовым загрузкам excel файлов в базу данных sql, загру...
Как будете ловить сломанные схемы?
Есть вопрос, как ограничить количество тасков на экзекутор ? Есть 30 экзекуторов, по 8 кор. Во всех запрсах это хорошо, но в одном месте есть 30 партиций и нужно чтобы каждая ...
Тут вроде есть несколько человек, кто использует spark operator, поделитесь, как вы храните код приложений? Хотя возможно этот вопрос актуален для любого варианта деплоя спарк...
Привет. Пользовался ли кто-нибудь Apache Livy? Использую его (через библиотеку pylivy) для простого запуска Spark-запросов из Airflow, да всё как-то не настрою нормально: сесс...