Проблема следующая:
                  
                  
                  
                  
                  
                  Есть сборка тарантула с Vshard: на 4х серверах 4 storage-ноды - 2 мастера и 2 реплики. QPS на чтение - 5к, QPS на запись - 3к. на других серверах 5 роутеров. 
                  
                  
                  
                  
                  
                  С периодичностью в 1-3 часа тарантул начинает выдавать ошибки Client timeout (либо на роутере, либо уже из приложения сыпятся такие ошибки). Таймаут стоит в 200мс. 
                  
                  
                  
                  
                  
                  Мониторю логи за время, что тарантул начинает тормозить - никаких ошибок, (снэпшоты в это время не снимаются, не удаляются). Только относительно часто readahead limit reached, но как я понимаю - это нормально.
                  
                  
                  В htop нода тарантула ест около 50% cpu
                  
                  
                  
                  
                  
                  Помогает только перезапуск master-нод. После этого все работает прекрасно, потом снова..
                  
                  
                  
                  
                  
                  Может подскажете, куда копать? Может кто-то сталкивался с проблемой? Сборка tarantool 1.10.2-0-gc0d8063b6
                  
                  
                
Readahead reached это когда процессинг запросов медленнее отправителя
Обсуждают сегодня