продакшен-базе в 1.5 терабайта включить чексуммы без особого даунтайма
База - мастер да реплика, включение чексумм занимает порядка 40 минут, судя по экспериментам
Подсказали, что можно стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы, сделать свитчовер, включить чексуммы на другом сервере, сделать свитчовер ещё раз (нам важно чтобы в итоге мастером осталась прежняя машина, не вдавался почему, но админу верю)
Так вот нюанс в том, что у нас был когда-то неудачный опыт со свитчовером, прилично лет назад, на постгресе вроде 9.6 или около того (сейчас у нас 12.3). А именно - реплика мастером стала, а вот прежний мастер к ней подцепить репликой не удалось. С тех пор не пробовали так делать.
За давностью лет - на что оно там ругалось, не помним конечно.
Сейчас, если свитчовер также не удастся, нам придётся дважды тянуть полтора терабайта по сети, чтобы восстановить репликацию один раз, и потом второй, и это ну такое себе удовольствие.
Так вот хочется подготовиться и сделать таки эти два свитчовера, но чтобы без секса, подскажите как правильно, и где соломки подстелить.
В постгресе много способов репликации, у нас она асинхронная, wal-based (хотя я могу ошибаться или недоговаривать, давно сам не готовил постгрес)
В мастере в конфиге строчки про репликацию такие:
hot_standby = on
На реплике:
hot_standby = on
primary_conninfo = 'host=... port=... user=replication password=...'
promote_trigger_file = '/var/lib/pgsql/12/data/postgresql.trigger'
У нас есть такая дока https://edu.postgrespro.ru/dba3/dba3_05_replica_switchover.pdf
Есть такое сообщение из мейл-листа https://www.postgresql.org/message-id/CANNMO%2BKYuH3Gh7BZp%3DUGXpoos4tBR0AFgoONkqWBrokuJthEug%40mail.gmail.com, где упоминается ещё "убедиться что валы догнались" (как?) и настройка recovery.conf (которого у нас нет)
Достаточно ли доки https://edu.postgrespro.ru/dba3/dba3_05_replica_switchover.pdf для безопасного свитчовера? Или надо что-то ещё проверить / не забыть / и т.п?
Спасибо что дочитали ;)
> Подсказали, что можно стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы Кто подсказал-то (такое я тоже слышал, и с виду оно может и работать, но не делал)? ;) Я к чему — может, у них спросить, как прошло / были ли проблемы? Далее: 1. Стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы 2. Сделать свитчовер Вот где-то перед этим шагом реплика, по идее, должна быть "докачена" WAL-ами с primary, нет? 3. включить чексуммы на другом сервере, 4. сделать свитчовер ещё раз И перед этим — тоже, см. выше. > реплика мастером стала, а вот прежний мастер к ней подцепить репликой не удалось timelines разошлись, наверное. Тогда же pg_rewind ещё не было, вроде? > Сейчас, если свитчовер также не удастся, нам придётся дважды тянуть полтора терабайта по сети Не обязательно. Как раз тут можно подумать, как правильно применить pg_rewind, по идее. > где соломки подстелить. А Вы на "урезанных" тестовых кластерах (к примеру, с теми же схемами и почти без данных; или вообще на тестовых базах) потренируйтесь. :) > где упоминается ещё "убедиться что валы догнались" (как?) См. https://www.postgresql.org/docs/current/app-pgcontroldata.html , по идее. > и настройка recovery.conf (которого у нас нет) Это потому, что у Вас v12. > Или надо что-то ещё проверить / не забыть / и т.п? Почитали бы Вы официальную документацию, для начала. ;)
Обсуждают сегодня