https://youtu.be/-AZOi3kP9Js
В частности из этого видео меня немного ввело в диссонанс: там говорится, что чтение и запись всегда осуществляется в partition leader и он всегда один, но при этом если отправлять сообщения в кафку можно указать ключ и кафка будет складывать Сообщения в нужную партицию, которая определяется по хэш ключа (ну и остатку от деления). Вот тут вопрос - зачем нам определять партицию, если все равно все пишется всегда в partition leader, а уже потом отправляется в ISR и follower партиции?
И второй вопрос:
У меня сейчас есть приложение на спринге, которое использует spring Kafka для создания consumer. Есть некий топик, который состоит из 5 партиций. Для консьюмера я указал запуск в 5 потоков т.е. на каждую партицию свой поток. Но если партиции служат для репликации данных, то не буду ли я в разных потоках получать одни и те же данные? То есть в кафку пушнули сообщение, оно попало в партицию лидер и потом раскаталось на ISR партиции и follower между брокерами, получается одно и то же сообщение есть в нескольких партициях и его получат несколько потоков? Или я не прав и кафка как-то предотвращает дублирование и надо идти глубже учить матчасть?
Буду признателен за ответы или ссылки на годные статейки по теме.
1. Партиции и реплики это разные вещи, топик разбивается на партиции, это механизм масштабирования записи/чтения, у каждой партиции могут быть реплики, это механизм повышения доступности(реплика это копия партиции на другой ноде брокера). Если у партиции есть реплики, то так же есть и партиция лидер, с этой партицией работают консюмеры/продюсеры. Другими словами если у топика 5 партиций и у каждой партиции 2 реплики, значит всего 15 партиций(5 лидеров и 10 реплик), по 3 копии каждой из них и у каждой из партиций есть партиция лидер с которой работают клиенты.
Обсуждают сегодня