Есть и хайв и спарк пока что. Часть вещей уже уехала на спарк, но пока нет понимания, лучше ли со спарком в к8с или в йарне
В ярне На тех лимитах на которых работает в ярне, на кубике по оом вылетает у нас часть задач, где много экзекуторов Подняли лимиты вроде стало лучше Сейчас смотрим чтобы подрезать параметры по запросам на шафл данные и тд По умолчанию в спарке нету лимитов сколько запросов одновременно может на хост уйти, а так как отдельного шафл сервиса нету внутри nodemanager, то вся эта масса влетает на тот же екзекуторы который и данные процессит Защита от бесконечных ретраев/рестартов подов приехала только в 3.4 https://issues.apache.org/jira/browse/SPARK-41210 https://github.com/apache/spark/pull/40774 В пулреквесте чуть больше контекста, тикет без инфы Ну и так всякое по мелочи вылазит
Обсуждают сегодня