входа в сервис для клиентов.
Мониторим проходимость запросов от клиентов.
Мониторим время ответа сервиса.
Мониторим ошибки на сервисе ([4-5]00 коды ответа, ошибки в логах, etc).
Мониторим доступность данных для сервиса.
Мониторим качество данных под сервисом (если применимо).
Мониторим состояние хостов под сервисом, их утилизацию, достаточность по ресурсам.
Мониторим наличие, как минимум одного экземпляра каждого микросервиса для сервиса.
Мониторим сетевую доступность между всеми взаимодействующими элементами сервиса.
bandwidth и latency если добавить слова будет чуточку понятней
написано конечно клёво но работы там вагон.
Обсуждают сегодня