большие файлы .csv (примерно 20гб) не прибегая к средствам обработки больших данных (hive+spark)?
Разбить на меньшие части
очень легко. Просто нужно сервер с 128 гб оперативки + pandas
Зачем вам хайв-то
Python Dask library
Обсуждают сегодня