миллиона строк, 60 столбцов. На выходе нужно получить сводную таблицу, где строка - уникальные значения из одного столбца, а другие 5 столбцов - сумма по 5 другим столбцам. Пробовал в лоб в цикле читать построчно, сохранять в список значения нужных 6 столбцов, после считывания 1 миллиона строк конвертить список списков в pandas dataframe, применять groupby, сохранять и идти на следующие 1кк строк. Но примерное время выполнения получается 91 час при 4гб озу. Есть другие варианты решить задачу быстрее?
колоночная база данных?
sed+awk ну или R data.table
а в чем проблема пандосом обработать? С 4 гигами озу конечно будет тяжеловато но по любому быстрей sql
Обсуждают сегодня