Всем привет! У нас кластер RMQ из 3-х нод в кубернетес,

Question

Всем привет! У нас кластер RMQ из 3-х нод в кубернетес,

4000 quorum single-active-user очередей, у 3000 expire по 60 сек. и после они пересоздаются, клиентами являются Node.js приложения с библиотекой amqplib

Когда перевалили за 2500 очередей при любой проблеме кластера (отвалилась на пару минут сеть, проблемы репликации, проблемы смены лидера, etc.) RMQ просто рассыпается:

– Очереди и кастомные exchange продолжают жить, в них можно писать, можно читать, но при этом фактически ничего не записывается и не читается
– Рандомно начинает закрывать коннекты (541 ошибка, вроде)
– Акаем сообщение, но он этого не видит и пересылает сообщение заново
– Может прийти ECONRESET при этом соединение не закрывается, но библиотека продолжает пытаться отправить heartbeat в мертвый сокет (но тут, конечно, больше проблемы самой либы и это более менее попровили)

Ресурсов точно хватает

Единственные способы лечения: удалять очередь / exchange, перезагружать ноды, а иногда просто приходилось открывать новый кластер и перепрыгивать на него

Мы никак не можем понять в чем проблема, есть ли здесь кто-то, кто может помочь / сделать платную аналитику и консультацию?

#backend #devops #rabbitmq #russian

0

08.11.2023

6 ответов

65 просмотров

Давид Шекунц Автор вопроса

Aleksey Barabanov
Честно говоря не припоминаю на слуху подобные кейс...

1. С классическими очередями все ещё хуже, потому что в случае отвала сети внутри кластера он потом не может собрать что к чему 2. Пару сотен 3. 3-4 сообщений в минуту на большинство очередей 4. v3.10.7 Ещё уточню: single active consumer, все-таки только на тех 3000 очередях, а не на всех Я правильно понимаю, что наибольшее число вопросов возникает к факту удаления очередей?

0

09.11.2023

Aleksey Barabanov

Какие настройки репликации были у классических очередей? Вопросы скорее - зачем вам кворум/кластер если вы всё смело удаляете? Вообще надо смотреть логи. Также хотелось бы понять как вы подняли реббит-кластер - сами или поганым битнамишным оператором?

0

09.11.2023

Давид Шекунц Автор вопроса

Aleksey Barabanov
Какие настройки репликации были у классических оче...

. "Настройки репликации"? Имете ввиду настройки персистенции? Если так, то пробовали как auto-delete (кластер в момент рассыпается), none (более менее, но при перезагрузке ноды тоже может рассыпаться) и durable (самый удобный вариант, но при проблемах в кластере работа с этими очередями просто останавливается) . кворум/кластер – нужно чтобы не важно есть или нет проблемы в моменте времени все сообщения обязательно дошли и дошли в правильной последовательности (а удаляем мы в случае, когда происходит условно "ребалансировка" очередей к приложениям) . Про операторы уточню у DevOps, а просто битмашиные операторы – а можно где-то почитать что с ними не так? Просто даже если не RMQ, то что-то на битнами операторах может быть у нас поднято

0

10.11.2023

Aleksey Barabanov

Давид Шекунц
. "Настройки репликации"? Имете ввиду настройки пе...

нет, именно настройки сборки после краха - попробовать автомат, меньше гарантий но и меньше гемора после развалов. я бы попробовал для начала собрать реббит кластер без битнами оператора, ручками и сравнить результат

0

10.11.2023

Aleksey Barabanov

Aleksey Barabanov
нет, именно настройки сборки после краха - попробо...

{"ha-mode":"exactly","ha-params":2,"ha-sync-mode":"automatic"}

0

10.11.2023

Aleksey Barabanov · Accepted Answer

Честно говоря не припоминаю на слуху подобные кейсы использования реббита. Не хватает для понимания следующих вопросов - пробовали ли некворумные, классические очереди? - сколько unacked, ready сообщений висит в кластере? - какой мпс в чнн? - версия реббита Раз ваши проблемы решаются удалением очередей - а вам вообще нужен кластер/кворум?

23 похожих чатов

Всем привет! У нас кластер RMQ из 3-х нод в кубернетес,

6 ответов

Похожие вопросы