бы отдебажить - 2 сервера по 9 инстансов приложения на каждом, потихоньку отваливается репликация между инстансами, сначала 1-2, потом 10, потом 120 ошибок (120 проблемных пар).. и бонусом периодически segmentation fault.
centos 7, tarantool 2.3.2 / 2.3.3-0-g5be85a3 - тот же результат, сеть между серверами переключали (2 разных интерфейса)
примерно так получается - полный индекс, рестарт приложения на обоих инстансах, нагрузки на чтение и запись вообще нет - все работает сутки без проблем
включаем запись - примерно 10 запросов с суммарными 4500 записями на upsert в 3х "таблицах" (в среднем 4 инта в записи)
через 10 секунд на сервере, где все реплики (мастер 10.1.1.3:3311)
node2_1[22623]: main/222/applier/admin@10.1.1.3:3316 coio.cc:379 !> SystemError unexpected EOF when reading from socket, called on fd 34, aka 10.1.1.2:35106, peer of 10.1.1.3:
node2_1[22623]: main/222/applier/admin@10.1.1.3:3316 I> can't read row
node2_4[22635]: main/215/applier/admin@10.1.1.3:3317 xrow.c:215 E> ER_INVALID_MSGPACK: Invalid MsgPack - packet body
node2_4[22635]: main/215/applier/admin@10.1.1.3:3317 I> can't read row
node2_4[22635]: main/214/applier/admin@10.1.1.3:3318 I> will retry every 1.00 second
node2_4[22635]: main/214/applier/admin@10.1.1.3:3318 xrow.c:1092 E> ER_SYSTEM: timed out
node2_4[22635]: main/214/applier/admin@10.1.1.3:3318 I> can't read row
node2_9[22656]: main/218/applier/admin@10.1.1.3:3317 I> will retry every 1.00 second
node2_9[22656]: main/218/applier/admin@10.1.1.3:3317 xrow.c:1092 E> ER_SYSTEM: timed out
node2_9[22656]: main/218/applier/admin@10.1.1.3:3317 I> can't read row
node2_6[22643]: main/215/applier/admin@10.1.1.3:3311 I> will retry every 1.00 second
node2_6[22643]: main/215/applier/admin@10.1.1.3:3311 xrow.c:1092 E> ER_SYSTEM: timed out
node2_6[22643]: main/215/applier/admin@10.1.1.3:3311 I> can't read row
node2_7[22647]: main/215/applier/admin@10.1.1.3:3312 xrow.c:140 E> ER_INVALID_MSGPACK: Invalid MsgPack - packet header
node2_7[22647]: main/215/applier/admin@10.1.1.3:3312 I> can't read row
node2_9[22656]: main/234/applier/admin@10.1.1.3:3314 I> will retry every 1.00 second
node2_9[22656]: main/234/applier/admin@10.1.1.3:3314 xrow.c:1092 E> ER_SYSTEM: timed out
как понять, что с ним происходит вообще?
винил?
А есть бектрейс от сегфолта?
Обсуждают сегодня