GET /system/df returned error: context canceled"
level=error msg="Handler for GET /images/json returned error: write unix /run/docker.sock->@: write: broken pipe"
http: superfluous response.WriteHeader call from github.com/docker/docker/api/server/httputils.WriteJSON (httputils_write_json.go:11)
level=error msg="Handler for GET /system/df returned error: context canceled"
На сервере 8 контейнеров, мониторится заббикс агентом 2, в 1:20 было оповещение что сервис докера упал, что по факту не так, перезапусков не было, насколько я понял проблема в таймаутах, дал запрос ждёт 60 сек, если ответа нет, то далее ошибка, в ручном режиме через заббикс все метрики и данные получаю(вычитал рекомендации об отключении итемов в забексе шаблоне докера что мне кажется такая себе затея), ошибка бывает периодически, не могу понять в чём именно проблема, дайте совет пожалуйста
Они наверное предлагали отключить все связанное с images,но не с контейнерами. Почему бы нет, ради эксперимента?
И почему явная проблема с производительностью обсуждается без упоминания и описания метрик нагрузки?
как вариант наверно можно
просто для меня это не явный аспект) по этому и пришёл за советом)
другими словами увеличение ресурсов сервера может решить проблему?
Ну как не явный? Что более вероятно, что в docker сохраняется незамеченная проблема с сокетами или что ваша конкретная машина нагружена?
Может. А может и не может.
звучит логично , но то что это произошло ночью, когда нагрузки обычно нет, а днём такого не наблюдается, в течении месяца это второй раз подобного рода ошибка, просто из того что пишут на форумах, я для себя так и не смог понять, проблема это докера, возможно нужно обновиться, или ресурсов
если не затруднит, можно парой слов описать что именно значат эти ошибки?
Я предполагаю, что опрос метрик просто не успел. И так несколько раз. Раз есть zabbix, данных чтобы проверить это, должно быть достаточно
Хотя, другие триггеры в zabbix не сработали?
только 1 что сервис упал, что по факту не так, я думал мб сетевые проблемы просто в работоспособности приложения , контейнеров и самого сервера не были замечены, ну то есть их не было в принципе
не уверен, но был скачок по дашбордам в заббиксе docker goroutines , насколько я понимаю он отвечает и за запросы и сеть ? и по времени ошибки совпадает
это рассуждения о триггерах. Но ведь есть просто метрики не превысившие пороги. Они тоже информативны.
остальные метрики в норме, а горутина свыше нормы был скачок
вот это - хз. факт в том, что мониторщики почему-то считают этот показатель важным.
вот и я об этом же, если на сервере нет явных ошибок, но триггер сработал, и по дашбордам видно прыжок , то вероятно она важна, и нужно разобраться
Имхо, горутины - бесконечные. Непонятно зачем их заббикс собирает и даже на дашборд выводит.
просто другого логического объяснения этому я не вижу, пока что, и пока это выглядит основным источником проблемы, мб действительно нужно обновить докер, он до меня на проекте ставился, мб 1.5-2 года назад
Я думаю пора забить на это. Может хранилка смигрировала, может еще что. Вас объяснительную на каждую ошибку продолжительностью минуту заставляют писать?
эмм) есть такое, "почему ошибка"? "как будешь устранять что бы не появлялась вновь"? и тд)
ну выгрузите все-все метрики и эксельку отошлите. и прикрепите методичку по факторному анализу.
клиент непростой просто) в любом случае благодарю за коммуникацию и советы)
возможно, следы какого-то процесса остались в логах самого докера
всё штатно работает, вот сейчас опять так же ошибка но без алерта...по журналу что вижу, и в дашборе тоже скачок на горутине
так понятно что штатно, но есть ли сообщения регулярно близкие по времени с этими проблемами?
во время деплоя был скачок, в дженкинсе запустили пайплайн, 40 минут назад, и во время был скачок
да нет там прямого лимита на горутины. это просто было бы глупо. они "бесплатные". есть еще какой-то лимит или ресурс. А число горутин собирается просто потому что это легко собрать и они могут свидетельствовать о числе каких-то изменений в docker.
может вы и правы за ресурсы, странно что ночью был скачок по загрузке системы и СПУ и большой скачок по сетевому трафику
Обсуждают сегодня