Подскажите почему в spark не прокатывает. надо в мелкий

Question

Подскажите почему в spark не прокатывает. надо в мелкий

паркет по одной записи добавлять. java, делаю датасет с новой строкой, читаю паркет, делаю union + coalesce(1) с новой строкой, кеширую StorageLevel.MEMORY_ONLY()
засада в том что если я полученный датасет записываю в то же место, он ругается, что старый файл в папке таблицы пропал. я не понимаю зачем он еще что-то читает с папки таблицы, все что нужно вроде в памяти кеша. я понимаю что могу записать в другое место, вопрос скорее теоретический почему не прокатывает ?

#hadoop #russian #software

0

07.08.2021

11 ответов

57 просмотров

Dmitry Автор вопроса

так cache вроде терминальня команда, план выполнился, в память затянул. если я обращаюсь к данным датасета, они же в памяти, зачем падать из-за того что сам же файлик затираешь

0

07.08.2021

Excellent Name

Возможно, связь между данными на диске и в кэше для спарка полностью не разрывается на каком-то из уровней. Не знаю, честно. Но выглядит так.

0

07.08.2021

iKaleeninskii

Cache/persist не Action, не терминальная команда. Она такая же ленивая, как и прочие трансформации. Нужно хоть раз затянуть данные до записи, тогда, возможно (возможно) прокатит. Затянуть можно так: dfCached.foreach(_ => ()) И лучше avro в этом кейсе. На худой конец текст (json, csv).

0

07.08.2021

tenKe Titov

лучше каунт

0

07.08.2021

Excellent Name

А не .show(1)?

0

07.08.2021

tenKe Titov

нет, show(1) точно не стоит, тк он посчитает минимальное количество партиций, для того, чтобы отобразить результат - скорее всего это будет одна партиция и только она уедет в кеши. В итоге у тебя будет partial caching

0

07.08.2021

Sergei K

Подожди, могут кэшироваться не все партиции?

0

07.08.2021

tenKe Titov

конечно

0

07.08.2021

Excellent Name

Да, ты прав

0

07.08.2021

Евгений Глотов

Если вместо кэша сделать чекпоинт, то прокатит, но он просто промежуточные данные сложит в темп папку

0

07.08.2021

Excellent Name · Accepted Answer

Excellent Name

Я не уверен в правильности своего ответа, но дело, думаю, в том, что план запроса - это ацикличный граф, и ты как бы не можешь просто взять и в середине или в конце изменить исходные шаги.

0

07.08.2021

52 похожих чатов

Подскажите почему в spark не прокатывает. надо в мелкий

11 ответов

Похожие вопросы