виртуальный хост, на котором есть сразу и жирка и конфля. С недавних пор (2-3 месяца) ровно раз в неделю примерно в один и тот же промежуток времени мониторинг сообщает о недоступности инстансов. Изучение логов мониторинга показывает, что на хосте что-то выжирает весь процессор, от чего отваливается сеть. Потом все спокойно само собой восстанавливается и инстансы становятся доступны (т.е. они не падают, перезапускать руками их не надо).
Смотрели журналы шедулеров и в жирке и в конфле - никаких джобов на время падения не висит. На самом хосте в кронтабе тоже ничего лишнего нет. Отловить какой именно процесс утекает пока не получилось - ставим запись top'а в файл на определенный промежуток, так эта зараза падает после. Т.Е. в рамках некоторого промежутка времени проблема еще и гуляющая.
Может кто сталкивался или имеет представление куда копать? Пока исходя из того, что это все-таки или жирка или конфлю грузит проц. Возможно, это что-то еще (я вот лично думаю может снапшоты с виртуалки снимаются в это время или она мигрирует между хостами в кластере, но это вилами по воде, а проверить пока не получилось), но пока хочется исключить продукты атлассиан, чтобы спокойно дальше мучать инфраструктуру.
Структура есть на джире?
Надо поставить apm на обе системы glowroot, например
Обсуждают сегодня