кубере и пода стала утилизировать всю цпу подкинули уже ей 14 ядер, мониторит 250+ инстансов
утилизирует все grafana сервис
не планируется ли у сделать pmm на несколько под разибвать по сервисам чтоб можно было было их по отдельности скейлить ?
Я спрошу. Мы что-то делаем для scale и кубера, но сомневаюсь, что для PMM сервера сейчас планируется такое на ближайшее время
Вполне нормально завести один pmm per dc/region. Можно ещё вместо стандартного сервиса использовать свой, буферизировать данные и слать большой пачкой. У нас много pmm, плюс простой веб сервер и cli к нему, которые умеют перекидывать на нужный pmm по хостнейму бд.
Но у нас именно графана начала исполнять (
извините, но я не понял. да и неважно, наверное
У нас внутри поды pmm-server , графана все цпу съедает, вот ищем решения с минимальными кастылями
это я как раз таки понял. я не понял предыдущий ответ: все слова по отдельности понятны, а складываются во что-то непонятное. мне в свое время не удалось решить аналогичную проблему и пришлось поднимать новые инстансы. светлана лукавит, когда говорит, что у вас уникальная проблема. вы, скорее всего, гуглили и видели что у многих есть подобная проблема. в одном месте фиксят - в другом отваливается. ну, в целом, это мое личное мнение. вариантов три: 1) репортить баг и ждать, что пофиксят; 2) заводить разные инстансы; 3) слезть с иглы. я кроме проблемы с cpu решал еще проблемы с сетью и для меня приемлимым решением было pmm-per-dc. было бы больше времени, то я бы выбрал третий вариант. ах, да, и у меня не кубик, но я не думаю, что это уж какая-то критическая разница
Но там да странная технология через супервизор все работает. Почему не пойти в сторону микросервисов. А какие проблемы с сетью? Чтоб понимать что можно ожидать
имхо, потому что так шипить проще юзерам. этой штукой пользуются многие и простота подкупает. ну и, разумеется, это прекрасный selling point. касательно сети - там ничего интересного. проблема, скорее на стороне провайдеров, просто pmm-agent реагировал на latency иногда отваливаясь, тогда как остальной софт работал нормально. раздражали false positive алерты.
Обсуждают сегодня