в другую по расписанию каждый день, обновляю новые данные. И тут делаю тесты, если произойдет падение сервака, нужно чтобы джоба рестартовала и залила данные исходя из точки остановки. При рестарте приложения срабатывает листенер и ставит статус фейл на джобу и степы и рестартит джобу, после ее завершения делаю каунт записей в оригинале и моей копии и они не совпадают (при краше сервера). Каким образом обеспечить целостность данных?
ну фиксируешь то что отослалось когда ТОЧНО отослалось. если что-то не имеет подтверждения что ТОЧНО отослалось - отправляешь еще раз или вопрос конкретно по Spring Batch и того как там все работает? а в доке не написано про acknowledge и at least (at most) once guarantee?
а есть конкретные механизмы в спринг батче? Те методы и настройка, ощущение что все до меня придуманно, а я сейчас изобретаю велосипед
у вас какой протокол/механизм передачи данных?
беру селектом из одной базы, маплю, в стадии процессора уже маплю в нужную сущность и в стадии writter уже записываю в бд
может вот этот раздел поможет, там вот как раз транзакционность или политика ретраев https://docs.spring.io/spring-batch/docs/current/reference/html/index-single.html#transactions
слушай, я когда-то решал подобную задачу, но прямо очень давно, лет 5-6 назад. там вроде было что-то изкоробочное для этого, но мне не совсем подошло, я делал примерно так. у меня была оракловая таблица примерно на 5ккк записей, надо было разово их прочитать, обогатить другими данными, вызвать пару микросервисов и записать обогащенные данные в другую базу. таблица была партриционирована и был сквозной монотонно возрастающий id у каждой записи. я сделал свой Partitioner и табличку с метаданными рядом. “Имя партиции| закомиченный id”. При стате приложения создается Partitioner, он идет в эту табличку и кладет данные в ExecutionContext. в Reader передается текст SQL запроса, который параметризуется данными из ExecutionContext. Создается partitionerTaskExecutor, каждый поток “знает” про имя своей партиции и последний закомиченный чекпоинт. В Reader исполняется запрос вида SELECT * FROM TABLE <PARTITION_NAME> WHERE ID > <LAST_CHECKPOINT> ORDER BY ID; процессишь эти данные как надо. во Writer’е я делал вставку в две таблицу. Одна с самими данными, вторая обновляла закомиченный чекпоинт. У тебя, возможно, все еще проще. Если данные там так же можно отсортировать монотонно, то можно просто класть в ExecutionContext последнюю обработанную запись и при старте джобы брать оттуда данные с помощью JobExploerer или как-то так. В общем, если совсем кратко. - подумай, можно ли отсортировать данные в твоей таблицы монотонно - если да, то в Reader читай данные примерно как я написал, начиная с последней закомиченной - во Writer делай атомарное сохранение обработанных данных и id последней записи. тут надо смотреть какие гарантии дает SpringBatch, если ты решишь класть ее напрямую в ExecutionContext, есть мнение что это тогда будут две разные транзакции. Тогда просто используй отдельную свою табличку и делай коммит по итогам успешной вставки данных в обе таблицы.
Обсуждают сегодня