вещь, как "распределённая трассировка" (Distributed Tracing), спецификацию OpenTelemetry / OpenTracing, реализацию Jaeger и вот это всё. Так вот, в больших системах есть с этим проблема: данные занимают много места и хочется собирать не всё, а только фиксировать одно место, где именно произошёл сбой. У меня в голове два варианта: делать это именно с помощью OpenTelemetry, просто передавать минимум данных или же как-то исхитриться и использовать непосредственно метрики. Кто-то решал уже подобную задачу? Логи - тоже не вариант, потому что их также слишком много.
Если у тебя произошел сбой - тебе нужно логи коллекционировать, а не трейсы
Обсуждают сегодня