добро (gzip и paqruet:sloppy жмут в три раза) и селектить оттуда по полмиллиона строк.
Как её решить без хадупа и прочих демонов? Всё должно быть на файлах.
parquet/hdf5 выглядят хорошо, но я так понял, там нужно весь датасет читать в память, 2ТБ не вариант. Как жить?
Parquet + snappy разделим вроде как https://www.google.com/amp/s/boristyukin.com/is-snappy-compressed-parquet-file-splittable/amp/
Обсуждают сегодня