нагруженной базе и теперь имеет проблемы с валовой репликацией. На мастере все ок но после некоторого времени работы происходит отваливание слейва. Wal sender и wal receiver отваливаются. В логе
на primary
2018-09-09 04:50:23 MSK [5542]: [1-1] LOG: terminating walsender process due to replication timeout
на реплике
2018-09-09 04:50:46 MSK [5728]: [2-1] FATAL: could not send data to WAL stream: server closed the connection unexpectedly
репликация warm standby or log shipping
в это время SELECT * FROM pg_stat_replication;
отдаёт пустую табличку, а должен показывать статистику вал сендера,
Репликация восстаналивается только после рестарта слейва.
Те как будто слейв не переподключается к мастеру после сетевого сбоя. Кто-нибудь сталкивался с подобным поведением?
подскажите куда копать. wal_level = 'hot_standby'
master
max_wal_senders 5
max_replication_slots 10
wal_keep_segments 20000
wal_sender_timeout 1min
track_commit_timestamp off
synchronous_standby_names
vacuum_defer_cleanup_age 0
slave
hot_standby on
max_standby_archive_delay 1h
max_standby_streaming_delay 1h
wal_receiver_status_interval 10s
hot_standby_feedback off
wal_receiver_timeout 1min
wal_retrieve_retry_interval 5s
Странно. А в логах primary/replica что? И в запросах (по системным каталогам), связанным с репликацией? И какая именно репликация, streaming? streaming + log shipping (вдруг Вы не то имеете в виду)?
Обсуждают сегодня