бэкапа кончилось место, бэкап повис. Все было ночью.
Мастер начал копить wal и со временем тоже съел все место и упал.
Отключили бэкап, почистили место (wal не трогали), запустили репликацию (2 реплики).
После на каждой реплике селекты висят по пол часа, процессор к 100%.
Не понятно на чем они висят, блокировок нет.
Чо заметил, на одной реплике бесконечно висит startup process recovering, но тоже не зависший, выполняется, просто не уходит из процессов, на второй токого нет.
Диск при это особо не нагружен, только проц.
Куда можно глянуть, в чем может быть проблема?
Может ли быть причина в том, что произошло или совпадение ?
А слот репликацыи для бармана там не завис случайно?
Ну, собственно, банальное: если висит много wal -- то, надо думать, их что-то держыт.
нет, его вообще щас отключили. wal маленький. Лаг репликации тоже не большой 0.05c
Тогда, раз проблема со скоростью запросов -- то ответ стандартный для тормозящих запросов. https://t.me/pgsql/303899 И начинать разбираться -- кто, чего, сколько, и как это можно поправить.
На реплике walы тожэ маленькие?
на реплике почти пустые
Есть, кстати, одна идея -- а можно к одной (для начала) реплике запретить подключения на какое-то время? Можэт, ожывёт всё?
И да, сейчас негде поиграться -- но по идее, само по себе состояние "startup process recovering" -- это нормально совершэнно. Оно вроде появляется, когда прочитан новый кусок streaming replication, и он переносится в buffers. Просто обычно оно не очень видно, поскольку это недолго каждый раз происходит. А вот то, что оно почему-то занимает заметный процэнт времени -- это странно. Но, повторюсь, не уверен в этих своих словах на 100%.
Обсуждают сегодня