Просто из за ряда ограничений в инфре это самый лёгкий способ на данный момент.
Может ли Спарк прижил комитить чекпрйнты автоматически или мне надо будет самому велосипедить ?
а че сримминг не хочешь? поставил пожирнее maxOffsetPerTrigger вот тебе и батч.
может, spark streaming + Trigger.Once() + указать checkpointLocation на небольших объемах выглядит весьма удобно хз, антипаттерн ли это
У меня нету инфры для шедулинга стриминга по этому и не хочу его брать + версия спарка старая
а для шедулинга батча есть? чем они отличаются?
кафке поплохеет. диск и нетворк кафки будут страдать - страдать будут все продюсеры и консюмерв
Всё-таки не понимаю, если держать список оффсетов, то где нагрузка?
если в топике накапливается пара терабайт даты за то время, пока мы из топика не читаем, то при чтении весь этот бэклог даты польется из кафки а наш апп. обычным не отстающим консьюмерам кафка дату отправляет из памяти, а не с диска. такой консьюмер, читающий много старой даты с диска вызовет не только забитие ресурсов сети, но и забитие ресурсов диска в итоге кафка станет медленнее писать на диск
Обсуждают сегодня