а по масштабированию, у нас узлы (датаноды) по 6 дисков, в клоудере трешхолд 1 млн блоков на датаноду. вот интересует если под новый кластер ноды с 12 дисками заказать, можно ...
подскажите почему в spark не прокатывает. надо в мелкий паркет по одной записи добавлять. java, делаю датасет с новой строкой, читаю паркет, делаю union + coalesce(1) с новой...
а DV/Anchor вообще кто-то строит на бигдата стеке ? там же миллард джоинов понадобится, тот же спарк их не особо то любит
подскажите на счет масштабирования hdfs, кроме хипа на name node, что еще влияет на перформанс hdfs ? кол-во дисков и dfs.datanode.data.dir полагаю должно заметно влиять, верн...
подскажите про кафку и schema registery. стандартно мы туда пишем спарком авро объекты, указывая схему в schema registery, если я запишу только часть авро объекта (без некотор...
а есть кто работал с датабрикс ? узнал что исполнение джоба в ноутбуке лимитируется двумя днями, а у jar есть такое ограничение ? долгий джоб создающий сессии тоже будет прину...
а есть тут кто-то возившийся с databricks ? пытаюсь запустить spring boot апликацию на runtime 6.4 (2.4.x spark), не стартует. stackoverflow говорит надо подменивать spring-c...
еще я не очень понял почему в хипе UnsafeHashedRelation, гугл unsafe с offheap связывает и с проектом tungsten. UnsafeHashedRelation это все таки на другую тему ? есть ключевы...
а давно в кликхаус джойны завезли ? откуда там tpc-ds возьмется?
и что, все это с раздутыми от версий строк файлами, вакумом, дырами после вакума, пиздецом у индексов в самом деле работает в гринплум ? или там все таки переделана система хр...
или это просто hdfs dfs тулзы считают занятые файлами блоки * 128 мб, а в реале на линуксовой файловой системе все нормально хранится ?
спарк сессию создаю без .enableHiveSupport(), на кой он ищет у хайва некий global_temp ?