пара десятков млн
psql умеет выгружать в csv, можно даже не разом всё, а чанками. Не специалист, но думаю эффективнее базы данных никто выгрузить не сможет данные на диск :/
Дело в том, что язык R базовой функцией выгружает данные чуть быстрее, но главное, что в некоторый момент pd.read_sql() начинает катастрофически есть память. После выгрузки, потребление возвращается в норму. Понятно, что выгрузить данные быстрее, чем предоставит их БД нельзя, но очевидно, что есть какая-то сильная неэффективность, связанная с pd.read_sql() Поэтому, пытаюсь понять, можно ли ее чем то заменить, так как сам пандас стараюсь юзать как можно меньше, именно из-за его чудовищной неэффективности
Обсуждают сегодня