S3 в яндекс облаке
В КХ есть raw табличка, которая наполняется трансфером в режиме репликации (стриминг)
Данных довольно много, хранить все в КХ дорого.
Хочу переливать историю в S3, а на самом КХ хранить, допустим, только 3 месяца, не суть
Вопрос:
Как можно писать на S3, чтобы при этом ничего не хранилось в самом КХ?
При этом, чтобы потом с этого S3 я мог прочитать (хотя бы спарком).
В идеале еще бы, чтоб при надобности можно было обратно этот S3 прочитать из КХ и сделать какой-то запрос
Почитал про S3 движок, но я не очень понял, как он работает.
Выглядит так, как то, что он в первую очередь для чтения данных из S3, а не для записи в S3.
А мне же в первую очередь записать, чтобы хранить все в виде файлов, а не в КХ.
Какие могут быть варианты, если не этот движок? Или может я про этот движок что-то неправильно понял?
Буду благодарен, если подскажете пайплайн
Спасибо!
Если верить Гуглу Яндекс должен уметь такое из коробки
объвляешь диск s3, и можно настроить перекладываение исторических данных туда. селекты с с3 тоже работают, в разы медленнее чем локальный диск конечно. но для исторических данных мне хватало
В managed ch нужно включить опцию "Гибридное хранение" в настройках, потом навесить TTL на таблицу
т.е. после TTL он не удалется, а просто переходит в S3? Но при этом селектить его можно, просто будет медленнее? А это какой-то подкапотный S3 доступный только для КХ, или к нему есть доступ?
да хоть minio )
а разве ttl а не disk policy регулируются диски? последний раз такое года 3 назад насраивал, не помню уже
ну нужно прописать TTL на перенос в S3, а не удаление) да, можешь прописать, чтобы данные больше 3мес переносились в S3. Это под капотом.
Яндекс это берет на себя, там просто прописываешь так после включения опции MODIFY TTL event_time + INTERVAL 60 DAY TO DISK 'object_storage';
хотя возможно, если хочешь чтобы всё было на S3 можно и disk policy указать при создании таблицы, тут не подскажу
Обсуждают сегодня