Коллеги, привет! Помогите пожалуйста с записью из КХ (managed, 3шарда) в

Question

Коллеги, привет! Помогите пожалуйста с записью из КХ (managed, 3шарда) в

S3 в яндекс облаке

В КХ есть raw табличка, которая наполняется трансфером в режиме репликации (стриминг)
Данных довольно много, хранить все в КХ дорого.
Хочу переливать историю в S3, а на самом КХ хранить, допустим, только 3 месяца, не суть

Вопрос:
Как можно писать на S3, чтобы при этом ничего не хранилось в самом КХ?
При этом, чтобы потом с этого S3 я мог прочитать (хотя бы спарком).
В идеале еще бы, чтоб при надобности можно было обратно этот S3 прочитать из КХ и сделать какой-то запрос

Почитал про S3 движок, но я не очень понял, как он работает.
Выглядит так, как то, что он в первую очередь для чтения данных из S3, а не для записи в S3.
А мне же в первую очередь записать, чтобы хранить все в виде файлов, а не в КХ.
Какие могут быть варианты, если не этот движок? Или может я про этот движок что-то неправильно понял?

Буду благодарен, если подскажете пайплайн

Спасибо!

#backend #clickhouse #database #devops #programming #russian

0

15.07.2023

9 ответов

63 просмотра

dslimp

объвляешь диск s3, и можно настроить перекладываение исторических данных туда. селекты с с3 тоже работают, в разы медленнее чем локальный диск конечно. но для исторических данных мне хватало

0

15.07.2023

all ow

В managed ch нужно включить опцию "Гибридное хранение" в настройках, потом навесить TTL на таблицу

0

15.07.2023

Vitalik Автор вопроса

т.е. после TTL он не удалется, а просто переходит в S3? Но при этом селектить его можно, просто будет медленнее? А это какой-то подкапотный S3 доступный только для КХ, или к нему есть доступ?

0

15.07.2023

dslimp

Vitalik
т.е. после TTL он не удалется, а просто переходит ...

да хоть minio )

0

15.07.2023

dslimp

all ow
В managed ch нужно включить опцию "Гибридное хране...

а разве ttl а не disk policy регулируются диски? последний раз такое года 3 назад насраивал, не помню уже

0

15.07.2023