из PostgreSQL в BigQuery, таблица весит 700 ГБ, порядка 2 млрд строк. Я пробовал переносить через airflow, по 1 дню, но машина по памяти падает. Цепочка была такая:
1. Выгружаю данные за день из PostgreSQL
2. Сохраняю в GCS, в parquet
3. Делаю external таблицу в BigQuery
Может есть какие-нибудь готовые решения?
1. google data flow с apache beam. возможно, там можно настроить, чтоб потихонечку выгружалась кусками 2. можно табличку из postgres дампануть как csv. менее надежно, чем (1) или любое jdbc-based решение, т. к. хз будет ли тот csv вообще валидее
DataFusion посмотрите
Ок, спасибо 🙏
Постгря не RDS?
Хрень спросил ) Думал что вы в AWS ))
Обсуждают сегодня