Дата инженеры! А расскажите как у вас схема мендежится? Кто-то реально использует Авро и схема registry?
Вы тут упомянули spark.sql.shuffle.partitions а подскажите стоит ли это число делать большим чем кол-во коров? Либо вопрос больше про кол-во данных?
а кто шарит за построение Vertica query Column level lineage? Какую-то библиотечку бы?
Всем добрый день! А подскажите я правильно понимаю что у Спарка JDBC коннект идет всегда на драйвере? И если допустим мы из Вертики что-то тащим без специального коннектора т...
Количество екзекьюторов не менять?
Всем привет! Изучаю по боевому ZIO. В проекте все сервисы обернуты в лееры и старт аппки происходит: ` ... unsafeRun(appRun).provideCustomLayer( ourLayers) ... ` Все сервисы и...
А тут кучка селектов и джоинов. Есть какая-то функция которая зарепартиционирует в Spark Sql?
Значит и на экзекьюторах оно умеет по JDBC тянуть что-то из базы? А как тогда оно понимает какие куски тянуть на каждый екзекьютор.
А шо делать? skewedPartitionThresholdInBytes + forceOptimizeSkewedJoin
Всем привет! Кто поскажет по Spark Streaming'у и дистрибуции задач для Кафка топика. Правильно я понимаю? Если есть топик на 11 партиций спарк максимум распараллелит процесс...
А правда что дата skewed если я вижу такую картинку для stage?
Гайз а кто-то деплоит jarки из teamcity в hadoop?
В какие регистри?