Проблема следующая:
Есть сборка тарантула с Vshard: на 4х серверах 4 storage-ноды - 2 мастера и 2 реплики. QPS на чтение - 5к, QPS на запись - 3к. на других серверах 5 роутеров.
С периодичностью в 1-3 часа тарантул начинает выдавать ошибки Client timeout (либо на роутере, либо уже из приложения сыпятся такие ошибки). Таймаут стоит в 200мс.
Мониторю логи за время, что тарантул начинает тормозить - никаких ошибок, (снэпшоты в это время не снимаются, не удаляются). Только относительно часто readahead limit reached, но как я понимаю - это нормально.
В htop нода тарантула ест около 50% cpu
Помогает только перезапуск master-нод. После этого все работает прекрасно, потом снова..
Может подскажете, куда копать? Может кто-то сталкивался с проблемой? Сборка tarantool 1.10.2-0-gc0d8063b6
Readahead reached это когда процессинг запросов медленнее отправителя
Обсуждают сегодня