etl может?) вы понимаете что слишком общий вопрос (читай ни о чем)
Окей, у меня есть 2 таблицы в PG, так как их нужно будет постоянно join'ить, хочу сделать 1 таблицу для них, меньшую таблицу залить как nested структуру для каждой строки. Как это сделать оптимально ?
ну если честно - из вашего объяснения, я не уверен что вам этов принципе надо - в зависимости от сценария использования join может выгоднее быть. Ну ок, допустим вам это действительно нужно: побуду кэпом, надо создать целевую таблицу в кх и перенести данные из постгреса, с каким из этих двух пунктов у вас возникли проблемы?
я бы джойнил все в pg. триггеры там есть, массивы - тоже. В результате в pg получится табличка с тем что вам нужно (и поток её изменений в WAL). Вот эту комбинированную табличку и надо отобразить в КХ через engine MaterializedPostgreSQL.
но это можно попробовать и на стороне PG, зачем для такого сверху КХ?
Спасибо, попробую
Я вот и спрашиваю как это сделать, оптимально
Вопрос следующий, чтобы быстро работать с этими данными, требуется ли их перенести в MergeTree или оставить в MaterializedPostgreSQL ?
как я понимаю MaterializedPostgreSQL под капотом имеет что-то типа aggregatingMT. Так что не надо.
Это удивление на самом деле
Возьмите apache airflow
Я думаю, это лишняя прослойка для нас, вроде уже виднеется как мы сделаем и будет норм
если это маленькая локальная задача, которая больше никогда не будет видоизменяться - да если вы хотите нормальный ETL - то посмотрите в сторону продукта. Он кажется монстроидальным, но снимет очень много головной боли
Обсуждают сегодня