Всем привет! У нас кластер RMQ из 3-х нод в кубернетес,

4000 quorum single-active-user очередей, у 3000 expire по 60 сек. и после они пересоздаются, клиентами являются Node.js приложения с библиотекой amqplib

Когда перевалили за 2500 очередей при любой проблеме кластера (отвалилась на пару минут сеть, проблемы репликации, проблемы смены лидера, etc.) RMQ просто рассыпается:

– Очереди и кастомные exchange продолжают жить, в них можно писать, можно читать, но при этом фактически ничего не записывается и не читается
– Рандомно начинает закрывать коннекты (541 ошибка, вроде)
– Акаем сообщение, но он этого не видит и пересылает сообщение заново
– Может прийти ECONRESET при этом соединение не закрывается, но библиотека продолжает пытаться отправить heartbeat в мертвый сокет (но тут, конечно, больше проблемы самой либы и это более менее попровили)

Ресурсов точно хватает

Единственные способы лечения: удалять очередь / exchange, перезагружать ноды, а иногда просто приходилось открывать новый кластер и перепрыгивать на него

Мы никак не можем понять в чем проблема, есть ли здесь кто-то, кто может помочь / сделать платную аналитику и консультацию?

6 ответов

18 просмотров

Честно говоря не припоминаю на слуху подобные кейсы использования реббита. Не хватает для понимания следующих вопросов - пробовали ли некворумные, классические очереди? - сколько unacked, ready сообщений висит в кластере? - какой мпс в чнн? - версия реббита Раз ваши проблемы решаются удалением очередей - а вам вообще нужен кластер/кворум?

Давид-Шекунц Автор вопроса
Aleksey Barabanov
Честно говоря не припоминаю на слуху подобные кейс...

1. С классическими очередями все ещё хуже, потому что в случае отвала сети внутри кластера он потом не может собрать что к чему 2. Пару сотен 3. 3-4 сообщений в минуту на большинство очередей 4. v3.10.7 Ещё уточню: single active consumer, все-таки только на тех 3000 очередях, а не на всех Я правильно понимаю, что наибольшее число вопросов возникает к факту удаления очередей?

Какие настройки репликации были у классических очередей? Вопросы скорее - зачем вам кворум/кластер если вы всё смело удаляете? Вообще надо смотреть логи. Также хотелось бы понять как вы подняли реббит-кластер - сами или поганым битнамишным оператором?

Давид-Шекунц Автор вопроса
Aleksey Barabanov
Какие настройки репликации были у классических оче...

. "Настройки репликации"? Имете ввиду настройки персистенции? Если так, то пробовали как auto-delete (кластер в момент рассыпается), none (более менее, но при перезагрузке ноды тоже может рассыпаться) и durable (самый удобный вариант, но при проблемах в кластере работа с этими очередями просто останавливается) . кворум/кластер – нужно чтобы не важно есть или нет проблемы в моменте времени все сообщения обязательно дошли и дошли в правильной последовательности (а удаляем мы в случае, когда происходит условно "ребалансировка" очередей к приложениям) . Про операторы уточню у DevOps, а просто битмашиные операторы – а можно где-то почитать что с ними не так? Просто даже если не RMQ, то что-то на битнами операторах может быть у нас поднято

Давид Шекунц
. "Настройки репликации"? Имете ввиду настройки пе...

нет, именно настройки сборки после краха - попробовать автомат, меньше гарантий но и меньше гемора после развалов. я бы попробовал для начала собрать реббит кластер без битнами оператора, ручками и сравнить результат

Похожие вопросы

Обсуждают сегодня

pika.exceptions.ChannelClosedByBroker: (406, "PRECONDITION_FAILED - inequivalent arg 'x-message-ttl' for queue 'amo-crm.q' in vhost '/': received the value '60000' of type 'si...
Sergey
9
Всем привет. Подскажите. Следующая ошибка при выполнении команды werf ci-env github --as-file - "unable to get synchronization client id: unable to get repo ghcr.io/*** tags: ...
2
Еще одну панику поймал: $ werf helm repo add --username gitlab --password ${CI_JOB_TOKEN} helm-werf ${HELM_REPO_V2_URL} "helm-werf" has been added to your repositories $wer...
citius
1
Всем привет 👋 может кто подсказать? Как мне добавить файлик без коммита в сборку stapel? С докерфайлом понятно Там allowContextAddFiles А как тоже самое сделать со stapel?
Sergeevich
5
WERF_COMMIT_HASH если я правильно понимаю только внутри стапель сборки работает?
citius
2
Вот такая неприятность на stable и ea версиях: werf helm --namespace s4c upgrade --install --atomic --timeout 5m --set s4c.version=839185f3 --set s4c.deployEnv=staging -f d...
citius
6
Всем привет! Прохожу этот самоучитель. Дошел до # Настроим подключение к MinIO. mc alias set minio http://minio:9000 minioadmin minioadmin # Получим содержимое сохранённого...
Aleksandr
7
Всем доброго времени суток! Перестал запускаться сервер RabbitMQ, вижу по логам, что ругается на плагин, но по какой причине не могу понять. Можете помочь разобраться, куда ко...
Александр Семенов
2
https://habr.com/ru/companies/domclick/articles/500978/ Добрый день, подскажите, пожалуйста, насколько хорошая практика сделать вот такую структуру эксчейнджей и очередей для...
Sergey
5
Блин а мне как поумнеть ?
Toxin
191
Карта сайта