А также связкой dbt с hdfs?
Нужна помощь с подключением dbt к hdfs для чтения файлов
оно ж вроде только в сикуэль умеет
То есть к hdfs не удастся с помощью dbt подключиться?
подключиться можно, если у вас есть hive / trino для работы с hdfs тогда можно найти dbt - коннекторы к ним
Смотря что под этим понимается. Я не большой эксперт в дбт, но стоял рядом с человеком, который его натягивал на spark thrift server, а тот в свою очередь айсберги молол под капотом. Как-то даже работало.
у меня на hdfs лежат parquet файлы, данные в этих файлах нужно записывать в бд и все это с использованием dbt сделать, если это возможно
ну тогда вот как Андрей выше написал. поднять что-то, что принимает jdbc и умеет читать поркеты с hdfs и на него травить дбт.
по поводу dbt поняла, а подключиться к hdfs и считать файлы с помощью кода питона возможно? (если не использовать dbt) находила примеры только по подключению с использованием kerberos, можно ли использовать аутентификацию ldap (логин и пароль) для подключения?
Пайспарк всё сделает, коннектор дбт вроде есть
можно через pyarrow (ссылка ), но насчёт ldap не подскажу , надо смотреть документацию
можно, наверное, но зачем?
Ты рядом со мной что ли стоял
в вертику, к самой бд подключение успешное и все отрабатывает нормально
файлов много? Какие объемы?
да, файлов много и появляются новые каждый день. По объему все разные: от нескольких Мб до пару Гб
для такой задачи вам dbt вообще не нужен, dbt про T а не про интеграцию. Я бы попробовал примаунтить сетевой диск который был бы виден вертике и просто копировать туда паркеты которые потом перегонять в вертику. Или может в вертике есть интеграция с хадупом. Может еще что-то, но это точно не про dbt
вот когда зальете в вертику и их нужно во что-то для бизнеса трансформировать на сикуле, вот тут уже dbt и появляется
да, с этим я как раз разобралась, с трансформацией проблем нет. Этап заливки данных в бд из хдфс вызывает сейчас некую сложность
если можно сделать в вертике внешнюю таблицу на hdfs то тогда можно читать из хадупа. Но тут много нюансов, включая лицензию на такое решение )
чатгпт говорит что такие внешние таблицы в вертике существуют ) https://docs.vertica.com/23.4.x/en/data-load/working-with-external-data/creating-external-tables/
только если у вас официальная лицензия на вертику нужно узнавать как такое ими тарифицируется. Если лицензии нет то пофиг )
Обсуждают сегодня