в клик (pyspark-ом, если это важно). Если делаю много воркеров, они падают с DB::Exception: Too many parts, если мало, то с DB::Exception: Memory limit (total) exceeded: would use 176.95 GiB (attempt to allocate chunk of 4429668 bytes). Как это правильно делается?
льешь большими пачками? а вообще стоит лимиты настроить тогда и меньше воркеров)
мы такую задачу решаем через чтение из hdfs напрямую, аля INSERT INTO %s SELECT * FROM hdfs('%s', 'Parquet', ‘%s’) для кажого файла в папочке
Обсуждают сегодня