172 похожих чатов

Коллеги, добрый вечер Я спрашивал тут пару недель назад, как на

продакшен-базе в 1.5 терабайта включить чексуммы без особого даунтайма
База - мастер да реплика, включение чексумм занимает порядка 40 минут, судя по экспериментам

Подсказали, что можно стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы, сделать свитчовер, включить чексуммы на другом сервере, сделать свитчовер ещё раз (нам важно чтобы в итоге мастером осталась прежняя машина, не вдавался почему, но админу верю)

Так вот нюанс в том, что у нас был когда-то неудачный опыт со свитчовером, прилично лет назад, на постгресе вроде 9.6 или около того (сейчас у нас 12.3). А именно - реплика мастером стала, а вот прежний мастер к ней подцепить репликой не удалось. С тех пор не пробовали так делать.
За давностью лет - на что оно там ругалось, не помним конечно.

Сейчас, если свитчовер также не удастся, нам придётся дважды тянуть полтора терабайта по сети, чтобы восстановить репликацию один раз, и потом второй, и это ну такое себе удовольствие.

Так вот хочется подготовиться и сделать таки эти два свитчовера, но чтобы без секса, подскажите как правильно, и где соломки подстелить.

В постгресе много способов репликации, у нас она асинхронная, wal-based (хотя я могу ошибаться или недоговаривать, давно сам не готовил постгрес)

В мастере в конфиге строчки про репликацию такие:
hot_standby = on

На реплике:
hot_standby = on
primary_conninfo = 'host=... port=... user=replication password=...'
promote_trigger_file = '/var/lib/pgsql/12/data/postgresql.trigger'


У нас есть такая дока https://edu.postgrespro.ru/dba3/dba3_05_replica_switchover.pdf

Есть такое сообщение из мейл-листа https://www.postgresql.org/message-id/CANNMO%2BKYuH3Gh7BZp%3DUGXpoos4tBR0AFgoONkqWBrokuJthEug%40mail.gmail.com, где упоминается ещё "убедиться что валы догнались" (как?) и настройка recovery.conf (которого у нас нет)

Достаточно ли доки https://edu.postgrespro.ru/dba3/dba3_05_replica_switchover.pdf для безопасного свитчовера? Или надо что-то ещё проверить / не забыть / и т.п?

Спасибо что дочитали ;)

1 ответов

11 просмотров

> Подсказали, что можно стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы Кто подсказал-то (такое я тоже слышал, и с виду оно может и работать, но не делал)? ;) Я к чему — может, у них спросить, как прошло / были ли проблемы? Далее: 1. Стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы 2. Сделать свитчовер Вот где-то перед этим шагом реплика, по идее, должна быть "докачена" WAL-ами с primary, нет? 3. включить чексуммы на другом сервере, 4. сделать свитчовер ещё раз И перед этим — тоже, см. выше. > реплика мастером стала, а вот прежний мастер к ней подцепить репликой не удалось timelines разошлись, наверное. Тогда же pg_rewind ещё не было, вроде? > Сейчас, если свитчовер также не удастся, нам придётся дважды тянуть полтора терабайта по сети Не обязательно. Как раз тут можно подумать, как правильно применить pg_rewind, по идее. > где соломки подстелить. А Вы на "урезанных" тестовых кластерах (к примеру, с теми же схемами и почти без данных; или вообще на тестовых базах) потренируйтесь. :) > где упоминается ещё "убедиться что валы догнались" (как?) См. https://www.postgresql.org/docs/current/app-pgcontroldata.html , по идее. > и настройка recovery.conf (которого у нас нет) Это потому, что у Вас v12. > Или надо что-то ещё проверить / не забыть / и т.п? Почитали бы Вы официальную документацию, для начала. ;)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта