пишу в него, потом закрываю. Если в течении часа приложение падает, файл получается пустой, можно этого избежать как-то?
Чаще закрывать и делать merge?
Пишу в хадуп и там используется технология, которая не позволяет дописывать в файл, а каждый раз создавать новый файл, это трудоёмко, поток очень большой , нужно успевать его перекладывать
hdfs ПОЗВОЛЯЕТ дописывать в файл, append была добавлена если помню в 0.20.3-append ветку и в проде с 1.0.0 версии а вот сам parquet формат не ожидает что вы в файл что-то будете дописывать особенно когда запись оборвалась непонятно где
Но я правильно понимаю, что append и flush это не про parquet?
возможно, лучше сделать 2 этапа? 1 этап тянет данные из источника и сохраняет в формате, удобном для recovery. а 2 этап уже формирует итоговый файл
Обсуждают сегодня