цпу начал лагать rabbitmq на 100к+ сообщений. А именно таймаутятся readines пробы - rabbitmq-diagnostics -q check_local_alarms через 20с. Я полез в графану (в том же кубе) и увидел, что прометеус стэк создал и всегда держит 200 процессов, а в пике около 400. Сам рэббит по ресурсам себя комфортно чувствует - цпу у него не растет выше 50%, память тоже
Не могу связать большое количество сообщений и замедление работы пода рэббита. Но предполагаю, что сервис с метрикой спавнит слишком много процессов и из-за этого на рэббит переключение исполнения происходит редко. Судя по тому, как лагает под рэббита, так и есть
Смотрю на вот эту метрику: container_processes{endpoint="https-metrics", id="/", instance="x", job="kubelet", metrics_path="/metrics/cadvisor", node="x", service="kube-prometheus-stack-kubelet"}
Ставим прометеус мы вот так https://pastebin.com/gzJLz1h4
Сталкивались ли с такой проблемой? Или, мб посоветуете какой-то проверенный способ с прометеусом в кубе?
с одной стороны советуют кафка для высоких нагрузок. с другой стороны - почему вы связали прометей и реббит ???? каким образом они по вашему друг на друга влияют ? они на одно узле запущены ? на узле iowait Высокий ?
Да, пардон. Это одна нода в кубе. Все поды живут пока на одной ноде
и реквесты с лимитами не заданы на подах ?
Про кафку знаю, но вроде 100к не так много (хотя тоже вопрос), поэтому пока хочу попробовать докопаться до самой проблемы. Если проблема не в рэббите, то миграция на кафку просто затянет процесс На некоторых заданы, но не везде На рэббите есть реквест 2цпу 2гига. Загруз самой ноды тоже не выше 70% цпу и 50% рам Про iowait не знал, сейчас нагружу, посмотрю top-ом
Обсуждают сегодня