мастера + 4 слейва + 8 роутеров используется vshard) один из мастеров вышел из строя:
2019-05-06 09:26:44.496 [17561] iproto iproto.cc:554 W> stopping input on connection fd 30, aka 192.168.90.224:3302, peer of 192.168.90.223:64494, net_msg_max limit is reached
2019-05-06 09:26:44.496 [17561] iproto iproto.cc:554 W> stopping input on connection fd 27, aka 192.168.90.224:3302, peer of 192.168.90.223:64492, net_msg_max limit is reached
2019-05-06 09:26:47.835 [17561] iproto sio.cc:303 !> SystemError writev(1), called on fd 27, aka 192.168.90.224:3302:Broken pipe
2019-05-06 09:26:49.502 [17561] iproto/101/main iproto.cc:554 W> 14998 messages suppressed
2019-05-06 09:26:49.503 [17561] iproto/101/main iproto.cc:554 W> stopping input on connection fd 48, aka 192.168.90.224:3302, peer of 192.168.90.225:17302, net_msg_max limit is reached
настройки подкручивал на лету:
box.cfg{readahead=52428800}
box.cfg{net_msg_max=10000}
В логах роутеры не могли достучаться до этого мастера.
Помогло только полное отключение мастера и его повторный запуск.
версия тарантула 1.10.3.9.gc9144cc5a-1
не подскажите куда копать?
а статистику не снимали? box.stat, cpu и т.п.
а после рестарта тарантулы не стали меньше CPU потреблять?
вот вчера вечером повторился баг лог storage: https://pastebin.com/391gJVa5 лог router: https://pastebin.com/LhUaXgyg единственное, я забыл добавить, что есть приложение, которое работает с роутерами и сетит данные. В случае если это не удалось ( есть некий статус ошибки 500, например получен таймаут от storage ) запросы ставятся в очередь и асинхронно выполняются снова и снова пока не будет получен корректный ответ.
Обсуждают сегодня