складыванием сообщений в хадуп. Схема в value может изменяться и поэтому не получается задать схему по которой можно распаковать сообщение. Есть вариант через collect собирать все колонки - но вроде это как то не очень, так как в один поток это делается (ну как я понял). Собсна вопрос как можно это распараллелить или как можно динамически схему определять?Или может есть какой бест практис как подобные задачи делать?
Если вы кладёте в schema-less формате (json, например), то проблемы будто и нет :)
Предполагается в паркет складывать, а там надо схему(
Обсуждают сегодня