КХ? Я читал в описании, что поддержка есть, но не читал о реализации. Как происходит десериализация из avro в native format?
Есть кафка таблица, при должных усилиях люди получают из нее по 100к-200к сообщений в секунду.(на одну кафка таблицу)
=) если стартап то меняйте кафку на Pulsar или https://vectorized.io/redpanda/
А пульсар ведь вроде файлы в облако закидывает
redpanda точно не закидывает =) ну и еще какой нибудь https://materialize.com/ в качестве ETL ;)
Пасиб, классные вещи, буду читать 👍
добрый день, вы этим не пользовались materialize.com? просто тоже объединяем большие потоки данных во 10-30тб в час, и хотелось бы знать если был какой-то опыт или бенчмарки есть у вас? (сейчас самописное на локальных бинарных файлах)
нет, бенчмарков нет и рабочей эксплуатации нет тупо "скачал поставил убедился что работает"
ну quickstart я прошел слушайте, я похоже там выше хрень написал не знаю откуда это у меня в голове но я точно был уверен что materialize умеет готовить хорошо всякие JOIN большие чтобы их потом уже в clickhouse закинуть... и я даже вроде бы помнил что они какой то clickhouse sink писали сейчас пересмотрел сайт, а оно вообще не про это... очень странно...
ну вроде про джоин стримов... но судя по тому что они оперируют объемами в "гига"байтах в своих текстах, это больше типа адхок аналитики для продакт аналитиков, а не полноценный джоин больших стримов данных... а то на сайте только красивые рисунки без конкретики о том как это делается, вот и хотелось понять, что же это за чёрная магия
Обсуждают сегодня