Всем привет! Особо не надеюсь, но вдруг кто-то здесь реализовал

Question

Всем привет! Особо не надеюсь, но вдруг кто-то здесь реализовал

слив данных в Greenplum через питон в каком-нибудь оркестраторе? Мне импонирует Prefect, хочу его попробовать.

Задача такова: через sqlalchemy брать батчами данные из внешней базы данных, каждый такой батч прогонять через трансформацию, потом заливать в, собственно, Greenplum.

Так как лить данные через мастер считается смертным грехом, подумалось, что можно было бы батчёванные данные сохранять как файлы вида /source/table/*.csv , а их уже забирать gpfdist-ом, что, в теории, должно сильно ускорить процесс загрузки за счёт параллелизации. По завершению файлы удалять, прогонять всякие vacuum analyze-ы и так далее.
Есть у кого-то такой опыт? Могли бы поделиться примерами?

В основном, интересует именно часть заливки данных в ГП.

P.S. hadoop-ов и прочих лейков не предусмотрено, будет одна виртуалка, где всё это крутится. Поэтому модно складывать в паркет и читать pxf-ом, судя по всему, я не смогу.

#hadoop #russian #software

0

31.05.2023

7 ответов

46 просмотров

Niyazi Garagashli Автор вопроса

Dmitry Zuev
гп на виртуалке тож?

Ну да, но на отдельных. Мастер, 6 сегментных нод, на каждой по сегменту и зеркалу

0

31.05.2023

Dmitry Zuev

ну вроде здесь всё описано, берешь и делаешь

0

31.05.2023

Niyazi Garagashli Автор вопроса

Dmitry Zuev
ну вроде здесь всё описано, берешь и делаешь

я знаю концептуально часть того, как gpfdist-ом из папки файлы забирать. Но я такого не делал, хотел посмотреть примеры тех, кто это делал через оркестраторы. Желательно, на питоне

0

31.05.2023

Dmitry Zuev

Niyazi Garagashli
я знаю концептуально часть того, как gpfdist-ом из...

какая разница оркестратор или нет

0

31.05.2023

Бронислав Житников

погоди тебе же по факту нужно поставить GPFDIST записать файлики туда где GPFDIST их видеть будет. а дальше из питона: 1. Создать внешнюю табличку ссылающуюся на твой файлик/файлики PSYCOPG (CREATE EXTERNAL TABLE) 2. дернуть через PSYCOPG вставку из внешней таблицы в таблицу GP (INSERT FROM SELECT) 3. После успешной вставки удалить файла. Вакуум прям на каждой вставке делать это по мне дичь. Прям пример там писать ну хз

0

31.05.2023

Niyazi Garagashli Автор вопроса

Бронислав Житников
погоди тебе же по факту нужно поставить GPFDIST за...

В принципе да, но тогда gfpdist будет тот, что пришёл с базой. ТЕОРЕТИЧЕСКИ, можно уронить базу на особо широких вставках. С остальным согласен, так и планировал

0

31.05.2023

Dmitry Zuev · Accepted Answer

Dmitry Zuev

гп на виртуалке тож?

0

31.05.2023

52 похожих чатов

Всем привет! Особо не надеюсь, но вдруг кто-то здесь реализовал

7 ответов

Похожие вопросы