несколько вопросов:
1) существует ли удобный способ положить поток сообщений из protobuf (реестра нет, но есть сама proto-структура) в топике Kafka в S3 через Sink-коннектор в формате JSON+gzip, чтобы можно было потом устроить бесконечное хранение с использованием Intelligent Tiering в S3 и пользоваться S3 Select или Presto для выгрузки данных за известный небольшой промежуток времени.
2) можно ли как-то использовать какое-либо внутреннее значение из пейлоада сообщения или же ключ для формирования имени объекта в S3 бакете? (наливать не 1:1 топик-партиции, а еще раскладывать дополнительно данные по-полочкам с префиксом). Текущая модель коннектора - класть файл с ключами или хидерами отдельно от пейлоада не позволяет удобно работать с данными - нужен некоторый JOIN или сканирование всех записей в объекте для фильтрации по одному из полей в пейлоаде.
3) можно ли соединять FieldPartitioner как-то с TimeBasedPartitioner чисто конфигурацией? /region=abc-1/field1=value/year=1234/month=12/day=23/hour=01.bin ?
Нашелся https://github.com/canelmas/kafka-connect-field-and-time-partitioner, который решает 2 и 3. Остается решить 1, либо быстро поставить Registry…
Обсуждают сегодня