Ну это spark умеет. Проблема только, что это оффсеты, с которых он начинает читать. То есть при повторном чтении с того же места и живом потоке на следующий раз мы получаем больше сообщений.
вы хотите спарком лить в датабазу каким-то образом без дублей?
лейте с дублями и дедуплицируйте батчем в отдельную таблицу по какому-нибудь (композитному) ключу
Обсуждают сегодня