нужно удалить дублирующиеся данные, правильно понимаю, что можно через kafka streams реализовать удаление дублей? или как проще решить задачу?
смотря какая задача если достаточно удалить дубли уже после попадания в топик - можете устанавливать записям ключ и включить политику compaction. тогда с некоторой задержкой более старые записи с дублирующимся ключом будут удаляться. если же надобно не допущать в топик дубли, то можете каким-либо образом проверять существование сообщений перед записью. в т.ч. можно сделать через kafka-streams.
Обсуждают сегодня