Коллеги, здравствуйте! Подскажите пожалуйста, можно ли каким-то образом в PostgreSQL, в

Question

pgsql – PostgreSQL

Андрей В

Коллеги, здравствуйте! Подскажите пожалуйста, можно ли каким-то образом в PostgreSQL, в

качестве ETL запускать скрипт Python?

Скрипт должен по API получать данные и передавать их в БД.

#backend #devops #pgsql #programming #russian

0

05.02.2022

57 ответов

62 просмотра

Denis

Почему бы не использовать airflow, а внутри скрипта питона уже обращаться к СУБД

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Зачем запускать скрипт именно в postgres?

Рассказываю. Мне необходимо «решение» Python+БД, которое можно использовать как «образ» и по триггеру автоматом разворачивать это решение. Если скрипт Python поместить в саму БД, то условно нужен только образ этой БД. Если их не совмещать, то необходимо уже иметь 2 образа: Python и отдельно БД. И ещё потребуется отлаживать их взаимодействие.

0

05.02.2022

Максим Мартынов

Андрей В
Рассказываю. Мне необходимо «решение» Python+БД, к...

Какая-то экономия на спичках

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Какая-то экономия на спичках

И что выступает в качестве «спички»? Просто если есть какой-то другой способ разворачивания и запуска «решения» без трудозатрат специалиста, то я только рад узнать как.

0

05.02.2022

Максим Мартынов

Андрей В
И что выступает в качестве «спички»? Просто если ...

Если под образом подразумевается докер образ, то поднимаешь через docker-compose контейнер с базой и ETL (python + скрипт/Airflow + зависимости), в переменных окружения указываешь название базы, в скрипте к ней подключаешься через psycopg2. Все. Если в будущем понадобится что-то дорабатывать, то достаточно будет обновить образ с ETL. Если нужно будет запускать ETL по сложному расписанию, добавлять интеграции с другими базами, инструментами - этот подход гораздо более расширяем. Если ты хочешь делать все это на PL/Python, тебе и так придется устанавливать python, а также устанавливать разные зависимости для работы с API. Вот только обновление процедуры будет требовать хождения в базу под админской учеткой (pl/Python является untrusted языком, обычные пользователи не могут писать на нем процедуры). И более сложные интеграции оно может и не вывести

0

05.02.2022

Dmitriy Sviridov

Андрей В
Рассказываю. Мне необходимо «решение» Python+БД, к...

Либо через docker-compose, как выше предложили, либо через Ansible

0

05.02.2022

Ilya Anfimov

Андрей В
И что выступает в качестве «спички»? Просто если ...

Могу посоветовать только найти спецыалиста, который это будет разворачивать и посоветоваться с ним. (Поскольку нет вообще никакой разницы, один там образ, два, питон внутри СУБД или вне её. Всё или разворачивается само или требует пинания руками.).

0

05.02.2022

Ilya Anfimov

Максим Мартынов
Если под образом подразумевается докер образ, то п...

Замечу, что я бы посоветовал в первую очередь подумать -- нужна ли будет база без этих ETL скриптов. И если нет -- то вообще сделать всё в одном образе, пусть там и питон и postgres лежат. Компоуз тожэ довольно плохое решэние, незачем его тащить без особой необходимости.

0

05.02.2022

Андрей В Автор вопроса

Ilya Anfimov
Замечу, что я бы посоветовал в первую очередь поду...

Под «образом» что подразумевается?

0

05.02.2022

Ilya Anfimov

Андрей В
Под «образом» что подразумевается?

Контэйнер докера.

0

05.02.2022

Максим Мартынов

Ilya Anfimov
Замечу, что я бы посоветовал в первую очередь поду...

Зависит от того, как этот ETL запускается. Если извне (docker exec), то можно и в один контейнер. Если нужен резидентный процесс внутри контейнера (а-ля крон/Airflow), то нужно два контейнера, в один их пихать не стоит. Композ простой, легко учится

0

05.02.2022

Андрей В Автор вопроса

Ilya Anfimov
Замечу, что я бы посоветовал в первую очередь поду...

В итоге, в самом Postgre можно содержать скрипты Python и запускать их по расписанию или по триггеру?

0

05.02.2022

Ilya Anfimov

Максим Мартынов
Зависит от того, как этот ETL запускается. Если из...

Композ тупой, и при этом не так легко переносится на kubernetes, как просто docker image.

0

05.02.2022

Ilya Anfimov

Андрей В
В итоге, в самом Postgre можно содержать скрипты P...

Не запрещено.

0

05.02.2022

central hardware

Ilya Anfimov
Композ тупой, и при этом не так легко переносится ...

docker-compose не делает ничего кроме того что умеет докер, нету никакой разницы переносить композ или чистый докер

0

05.02.2022

Максим Мартынов

Ilya Anfimov
Композ тупой, и при этом не так легко переносится ...

Автор боится двух отдельных образов, а ты кубер предлагаешь)

0

05.02.2022

Ilya Anfimov

central hardware
docker-compose не делает ничего кроме того что уме...

Он делает всякую оркестрацыю нескольких контэйнеров параллельно, а кубер делает тожэ самое, только по-другому.

0

05.02.2022

central hardware

Ilya Anfimov
Он делает всякую оркестрацыю нескольких контэйнеро...

с swarm-ом путаете, композ не умеет ничего, он просто врапер над docker engine api, как в общем то и сам docker cli

0

05.02.2022

Ilya Anfimov

Максим Мартынов
Автор боится двух отдельных образов, а ты кубер пр...

Я не предлагаю, я высказываю одну из причин, по которым я композ нелюблю. (Не, я и докер нелюблю, чо уж там). (А к куберу с подозрением отношусь, но всяко лучшэ докера).

0

05.02.2022

Андрей В Автор вопроса

Ilya Anfimov
Не запрещено.

Можете подсказать ссылку, где я могу с этим подробнее ознакомиться. Я гуглил, но везде показывается решение, где Python находиться «вне БД».

0

05.02.2022

Ilya Anfimov

Андрей В
Можете подсказать ссылку, где я могу с этим подроб...

С отсутствием запрета? Ну, вот например, http://www.constitution.ru/10003000/10003000-4.htm статья 34.

0

05.02.2022

Андрей В Автор вопроса

Ilya Anfimov
С отсутствием запрета? Ну, вот например, http://ww...

?

0

05.02.2022

Максим Мартынов

Андрей В
Можете подсказать ссылку, где я могу с этим подроб...

Очень не советую так делать. Допустим, это сработает сейчас. А если думать на пару месяцев вперёд? Что если скрипту нужно будет обновить/добавить зависимости? Обновить версию Python? Пересобирать образ и пересоздавать весь контейнер с базой ради одного скрипта?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Очень не советую так делать. Допустим, это сработа...

Да, пожалуй соглашусь. При этом возможно понадобиться переделать всё то, что у же работает, верно?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Очень не советую так делать. Допустим, это сработа...

Выходит, скрипт нужно содержать отдельно.

0

05.02.2022

Максим Мартынов

Андрей В
Да, пожалуй соглашусь. При этом возможно понадобит...

Сложно сказать наверняка, но вполне вероятно. Допустим, в какая-то из зависимостей сильно поменялась, соответственно скрипт нужно будет дорабатывать

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Сложно сказать наверняка, но вполне вероятно. Допу...

Хорошо. Т.е можно сделать 1 или 2 контейнера - это и будет «решение». Ещё один вопрос. Я чуть-чуть знаком с Docker. Что будет оптимальнее для Azure, Docker или Kubernetes? Или это 2 разных продукта и сравнивать их между собой не стоит? Понимаю, что вопрос может быть задан некорректно, но мне необходимо определиться в какую сторону капать.

0

05.02.2022

Максим Мартынов

Андрей В
Хорошо. Т.е можно сделать 1 или 2 контейнера - это...

Понятия не имею, с Azure не сталкивался

0

05.02.2022

Андрей В Автор вопроса

Андрей В
Рассказываю. Мне необходимо «решение» Python+БД, к...

@dolfinus, у меня уточняющий вопрос. Если копировать (разворачивать по триггеру) только БД. Могут ли они все одновременно использовать один скрипт Python?

0

05.02.2022

Максим Мартынов

Андрей В
@dolfinus, у меня уточняющий вопрос. Если копирова...

Я не понимаю, зачем тебе стрелочка из postgres в python

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Я не понимаю, зачем тебе стрелочка из postgres в p...

Я предположил, что БД использует Python скрипт как ETL. Соответсвенно, от БД должен быть триггер на выполнение скрипта. Предположим, что у меня 5 версий скрипта Python под разные API запросы. И у меня есть 2 образа БД. Одна БД использует все 5 скриптов Python. Вторая - только один. Соотвественно, именно на стороне БД должнен быть триггер. Логично? Или что-то нужно учесть?

0

05.02.2022

Максим Мартынов

Андрей В
Я предположил, что БД использует Python скрипт как...

Зачем postgres сам запускает ETL, почему не скрипт запускается чем-то типа крона и перекладывает данные из API в Postgres? Как ты собрался запускать скрипт из Postgres, который лежит в другом контейнере?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Зачем postgres сам запускает ETL, почему не скрипт...

Зачем Postgre сам запускает ETL? - разве ETL процедура запускается не в БД? Исходя из Ваших сообщений, я понимаю, что эта логика нивелируется, если ETL выполняется «на стороне».

0

05.02.2022

Максим Мартынов

Андрей В
Зачем Postgre сам запускает ETL? - разве ETL проце...

Зачем она должна запускаться на стороне БД? Какую проблему ты хочешь этим решить?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Зачем postgres сам запускает ETL, почему не скрипт...

«Как ты собрался запускать скрипт из Postgres, который лежит в другом контейнере?» - это невозможно? Т.е. это ограничение.

0

05.02.2022

Максим Мартынов

Андрей В
«Как ты собрался запускать скрипт из Postgres, кот...

Это возможно, но не нужно, поскольку ломает основную логику контейнеров - воспроизводимое поведение, доставка приложения вместе зависимостями, изоляция окружения

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Зачем она должна запускаться на стороне БД? Какую ...

Я выше описал: Предположим, что у меня 5 версий скрипта Python под разные API запросы. И у меня есть 2 образа БД. Одна БД использует все 5 скриптов Python. Вторая - только один. Т.е. есть условие, что могут быть созданы разные конфигурации БД. Эти разные конфигурации БД должны получать данные от разных Скриптов Python. Где содержать подобную логику?

0

05.02.2022

Максим Мартынов

Андрей В
Я выше описал: Предположим, что у меня 5 версий ...

Начнем сначала. Что должно триггерить твой ETL? Что, откуда и куда он должен перекладывать?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Начнем сначала. Что должно триггерить твой ETL? Чт...

Подключаться по API к интернет-сервису и получать оттуда данные по API. Возможно предварительно нормализовав.

0

05.02.2022

Максим Мартынов

Андрей В
Подключаться по API к интернет-сервису и получать ...

Триггерить его должно что? Какое-то действие в базе, запуск по расписанию?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Триггерить его должно что? Какое-то действие в баз...

Запуск по расписанию.

0

05.02.2022

Максим Мартынов

Андрей В
Запуск по расписанию.

И зачем тогда вызывать скрипт из базы?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
И зачем тогда вызывать скрипт из базы?

Потому что именно в БД будет заложена логика того, какие таблицы / данные в неё должны поступать.

0

05.02.2022

Максим Мартынов

Андрей В
Потому что именно в БД будет заложена логика того,...

Что?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Что?

Расскажу на примере. Представим, что есть 2 скрипта Python. Первый: собирает информацию по погоде. Второй: собирает информацию по объёмам продаж сахара. Представим, что у нас есть 2 образа БД. Первый: для того, чтобы содержать информацию по погоде. Второй: для того, чтобы содержать информацию по погоде и по сахару. Разворачиваем 2 БД на основании образов. Первая БД обращается к первому скрипту Python. Вторая БД обращается к первому и второму скрипту Python. Т.о. логика запуска скрипта находится на стороне БД. Верно?

0

05.02.2022

Максим Мартынов

Андрей В
Расскажу на примере. Представим, что есть 2 скрип...

Зачем она должна быть в БД? Почему не запускать по расписанию скрипт (где угодно и как угодно) и передавать в скрипт (через аргументы или конфиг) данные для подключения к API и БД, чтобы он и тянул инфу, и складывал ее в нужную базу? Зачем для всего этого нужно что-то делать на уровне самой базы? С чего база вообще должна что-то знать о том, откуда в нее приходят данные?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Зачем она должна быть в БД? Почему не запускать по...

Может быть и так, Максим. Я не бью себя в грудь и не отстаиваю ни один из подходов. Я просто хочу знать мнение сообщества на подобные задачи. Спасибо Вам за обратную связь! Я сейчас поищу ссылку на один сервис, предлагаю порассуждать над тем, что там под капотом.

0

05.02.2022

Андрей В Автор вопроса

Андрей В
Может быть и так, Максим. Я не бью себя в грудь и ...

@dolfinus, пример сервиса (другой не вспомнил): https://www.cdata.com/drivers/

0

05.02.2022

Максим Мартынов

Андрей В
@dolfinus, пример сервиса (другой не вспомнил): ...

Приложений, либ и сервисов для ETL огромное количество, практически на любом языке. Подавляющее большинство умеет складывать данные в Postgres. Выбирай какой хочешь

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Приложений, либ и сервисов для ETL огромное количе...

Хорошо. Вот представим, что я зарегистрировался на этом сервисе. И попросил их передавать для меня данные из Google аналитики. Они развернут под меня БД (есть такие, что могут дать доступ к БД, я что-то подобное видел) и предоставят к ней доступ. Может быть я не смогу в этой БД, что-то делать, но данные забрать смогу. Как это примерно организовано?

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Приложений, либ и сервисов для ETL огромное количе...

У Вас на примете какие-то есть? Можно ссылку?

0

05.02.2022

Максим Мартынов

Андрей В
У Вас на примете какие-то есть? Можно ссылку?

Airflow

0

05.02.2022

Максим Мартынов

Андрей В
Хорошо. Вот представим, что я зарегистрировался на...

Тянешь скриптом данные из одной базы и перекладываешь в другую

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Тянешь скриптом данные из одной базы и перекладыва...

Т.е. во всей архитектуре, должен быть "скрипт-администратор", который знает в какую БД какие данные необходимо записывать. Этот "скрипт-администратор" запускает соотвествующие скрипты для разных БД. Верно?

0

05.02.2022

Максим Мартынов

Андрей В
Т.е. во всей архитектуре, должен быть "скрипт-адми...

Именно это и представляет собой Airflow, он оркестрирует ETL, знает что, когда и с какими параметрами запускать

0

05.02.2022

Андрей В Автор вопроса

Максим Мартынов
Именно это и представляет собой Airflow, он оркест...

Благодарю!

0

05.02.2022