из PostgreSQL в BigQuery, таблица весит 700 ГБ, порядка 2 млрд строк. Я пробовал переносить через airflow, по 1 дню, но машина по памяти падает. Цепочка была такая: 
                  
                  
                  1. Выгружаю данные за день из PostgreSQL
                  
                  
                  2. Сохраняю в GCS, в parquet
                  
                  
                  3. Делаю external таблицу в BigQuery
                  
                  
                  Может есть какие-нибудь готовые решения?
                  
                  
                
1. google data flow с apache beam. возможно, там можно настроить, чтоб потихонечку выгружалась кусками 2. можно табличку из postgres дампануть как csv. менее надежно, чем (1) или любое jdbc-based решение, т. к. хз будет ли тот csv вообще валидее
DataFusion посмотрите
Ок, спасибо 🙏
Постгря не RDS?
Хрень спросил ) Думал что вы в AWS ))
Обсуждают сегодня