статсд в виде событий, а потом с помощью функции отображаем только время ответа тех ручек, количество обращений к которым больше N, это постаналитика или предзнание?
постаналитика imho. ты всё равно собираешь данные по логам и это сложный пайплайн для деланья всё того же.
ну и кстати как вы отслеживаете в такой схеме baseline ?
А можете подробней схему описать? Сколько rps на балансерах, и сколько ресурсов требуется, чтобы обработать эти логи, нормализовать и отправить куда-то в виде метрик? Как быстро они доезжают? Я просто пока с такими задачами не сталкивался, везьде где была хоть какая-то нагрузка, достаточно было логов ошибок и долгих запросов.
Обсуждают сегодня