различных микросервиса. Взаимодействие через кафку.
Операция может отваливаться посреди процесса. 2 сервиса обработали и вдруг что-то пошло не так.
На данный момент процесс анализа и исправления происходит колхозным образом
1. Смотрим логи на наличие ошибок
2. Выявляем traceId проблемной операции
3. Выявляем на каком сервисе все отвалилось
4. Отправляем сообщение по новой в топик этого сервиса.
Как у вас реализован контроль и исправление подобных ситуаций?
1. Трассировка для observability. 2. Outbox для гарантийного взаимодействия. 3. Система recovery ошибок собственно для рекавери и уведомления.
Обсуждают сегодня