в hdfs gzip файлы. Каждый файл представляет собой кучку json-строк, пусть что-то типа "src_ip:ip,dst_ip:ip,dst_domain:domain". Я имею какой-то инструмент в hadoop кластере, чтобы выгрузить эти файлы с какой-то фильтрацией, например по ip источника?
Я загуглил и нашёл, что делали с помощью спарка https://stackoverflow.com/questions/37461837/reading-json-files-in-spark-and-filter-them-out-by-id
Обсуждают сегодня