добро (gzip и paqruet:sloppy жмут в три раза) и селектить оттуда по полмиллиона строк. 
                  
                  
                  Как её решить без хадупа и прочих демонов? Всё должно быть на файлах.
                  
                  
                  
                  
                  
                  parquet/hdf5 выглядят хорошо, но я так понял, там нужно весь датасет читать в память, 2ТБ не вариант. Как жить?
                  
                  
                
Parquet + snappy разделим вроде как https://www.google.com/amp/s/boristyukin.com/is-snappy-compressed-parquet-file-splittable/amp/
Обсуждают сегодня