вторая - ConnectingFullmesh.
куда смотреть? что делать?
По описанию выглядит так, что кластер придет в норму, когда нода в состоянии Recovering Snapshot собственно восстановится из снапшота
Это продолжается уже очень долгое вреия
нода в итоге поднялась?
Нет, вчера благодаря @y_dynnikov получилось слейв сделать мастером, потому-что мастер был вообще трупом... Дальше подняди еще один репликасет и в момент переключили с одного репликасета на второй. Данные решили потерять, так как Тарантул у нас используется как горячее хранилище с дальнейшим перетеканием в ClickHouse Причина по которой в момент мастеру стало плохо не совсем ясна. Был небольшой всплеск нагрузки (всё в пределах разумного) после которой пошла "деградация" производительности. Что убило мастер - загадка.
может oom killer? смотрели в dmesg?
Памяти был вагон, всего использовалось 340мб из 8 гигов Правда items_used_ratio и arena_used_ratio были 97% в пике, но quota_used_ratio была не более 10%
у вас используется github.com/tarantool/metrics ?
Да, конечно
Обсуждают сегодня