11 сервисов, мониторяться прометеем, темплейт с офф репозитория, по http делает проверку , 1 сервис(для пуш уведомлений на мессенджеры, стороннее API) с регулярной периодичностью шлёт алерты, что не верное тело ответа согласно регулярке, но резолвится само в течении 3-5 минут, и так за день может 1-2 раза, а может и 20+, дергал curl ом постоянно ответ 201 result:true , в логи пишет, я понять не могу , ошибка со стороны API стороннего, приложения, или девопсов косяк? разрабы меня убеждают что мониторинг не верен, хотя по логике другие сервисы норм работают
куда копать? посоветуйте
Не верить никому, достать и вдумчиво прочитать логи.
меня уже укачало от них, там кроме запросов и ответов ничего, и по ошибке которую я ищу тоже голяк, всё что было уже перелопатил
Залезь в пром да посмотри
я бы ещё понял если бы курл через раз работал, а так 10+ закинул, всё в логи лягло, неделю назад ещё 1 сервис мозги делал, но как выяснилось косяк разрабов был, запрос кривой , а тут я прям завис
Мониторинг врать не будет - он тупой. Значит раз в сколько-то запросов отдаётся неверный ответ. Если есть доступ к логам сервиса - грепай их по хелсчеку и ищи ошибку. Если нет доступа к логам - включай на проме полный дамп запросов и ответов для этого сервиса (гугли как это делать). С дампом и таймстемпами иди к хозяину сервиса.
Ну в целом я так и сделал, вытянул всё из логов и мониторинга в отдельные файлы, и отдал клиенту, меня поражает что в это происходит в 90% случаях предсказуемо, раз в пол часа, час, и резрлвится с таким же процентом через 3-5 минут, хоть часы сверяй
Это как раз нормально. Большинство процессов внутри компьютера происходят регулярно. Потомушто у ней внутре часики.
пром разве такое умеет? слать http запросы произвольные и проверять тело ответа регекспом? Зачем на проме дам смотреть
Он проверяет на result:true/false, то есть если тело ответа пустое или ещё что-то , кидает алерт, я так себе думаю
не надо "себе думать", надо взять и сделать, и посмотреть. Если действительно сервис сбоит, ты увидишь разницу в теле ответа. А так твои думы разрабу не аргумент, он по прежнему будет говорить что твой мониторинг говно, а с сервисом всё в порядке, и будет прав
Да
https://t.me/devops_ru/1064277
Но при этом ошибки в мониторинг прилетали, хоть мне показалось что реже
Обсуждают сегодня