топиков, на основе чего принимается решение по репартишн и итоговому количеству?
"Kafka Streams optimizations are an attempt to automatically make Kafka Streams applications more efficient by reorganizing a topology based on the inital construction of the Kafka Streams application. Right now there are two possible optimizations, reusing the source topic as a changelog topic for a KTable created directly from an input topic. The second optimization is merging multiple repartiton topics into one repartition topic when there mulitple grouping or join operations after a key-changing operation."
Надо кип искать. Пока зацепка только KIP-295. А в чем собственно вопрос - понять какие оптимизации Kstreams делают?
да, хотелось бы понять механизм, т.е. если делается репартишн, то добавляются избыточные топики, означает ли это, что будет пропорциональный рост объёма данных на диске?
Наоборот - оптимизацию топологии делают чтобы меньше топиков создавать промежуточных
вот где бы найти описание механизма репартиций
Давай с начала - repartition это процесс через который проводят стрим чтобы привести его к виду который, например, приготовит его для join. Ну т.е. исходный топик и топик для join могут иметь разное кол-во partitions и сходу join не сделать.
Обсуждают сегодня