некоторыми данными, рассованными по директориям структуры /09/27/01 (27 сентября, с часу ночи до двух). Я хочу отпроцессить это дело спарком и разложить точно такой же структурой (названия файлов значения не имеют, я просто хочу потом иметь возможность посчитать некоторые вещи за конкретный период без чтения всего датасета). Это реально без фор-лупа, который создает и записывает DF на каждую комбинацию?
Если перефразировать и упростить: есть ли какая-то интерполяция в терминальных методах write, i.e. использование значений из самих данных?
Я в это дело пока только влезаю - я правильно понимаю, что можно отпартицировать по нужной комбинации, сохранить паркетом (только ли паркетом?), и потом через sql (только ли через sql?) запросить нужный интервал без чтения лишнего?
Обсуждают сегодня