Коллеги, вопрос. Вот была аварийная ситуация. Хочу понять что мне в постмортем

написать.

AWS Aurora RDS MySQL в два инстанса.
Один райт, другой рид + rds proxy.
Покатили кривой релиз с херовым query, он положил всю базу, ЦПУ в 100%, даже в консоль не зайти.

Было принято решение "сделать фейловер на второй инстанс(он слабее основного writer для экономии денег), подождать 5 минут, свичнутся обратно".
Проблема была решена.

Какие реальные действия должны были быть у нормальных ребят?
Может есть очевидные и правильные, чем свичить фейловер, искусственно сбрасывая кривой и жирный запрос.

6 ответов

36 просмотров

Timeout на стороне базы на запросы. Тогда она сама этот все прибьет. Чаще бывает допустим 1 мин со стороны приложения и 5 мин со стороны базы. Есть еще метрики которые отвечают за число транзакций которые ждут и прочее. Они чуть быстрее могут сработать. А так да ребут базы :) Эффект автомобильной пробки Один затормозил и дальше все по цепочке Видел много много раз :) Еще помогает посмотреть метрики некоторые (попозже пришлю). Но если это прям 1 запрос первый так все сложил, то не спасет :) Бывает что в начале еще база пытается как то выжить

Vladimir Samoylov
Timeout на стороне базы на запросы. Тогда она сама...

А ребут multiAZ базы лучше делать с галкой reboot with failover или без?

RDS и Aurora отличаются в этом плане RDS https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_RebootInstance.html я бы не сказал что какой то вариант лучше чем другой Но reboot просто перезапустит это всё, а with failover еще и поменяет AZ/DNS Некоторые приложения не умееют переживать такие вот обновления DNS и кешируют у себя данные Aurora как мне кажется лучше переживает подобные операции

Vladimir Samoylov
RDS и Aurora отличаются в этом плане RDS https://...

У меня недавно была такая же ситуация с RDS MySQL. База multiAZ, встала колом от запросов из приложения. Сделал reboot базы без галки "Reboot with failover" и ребут длился минут 30. Я уже support issue успел открыть в enterprise support и там человек мне сочувствовал активно.

Sergey
У меня недавно была такая же ситуация с RDS MySQL....

Ну вот Aurora очень хорошо переживает такие штуки. Можно даже все инстансы вообще удалить и пересоздать и всё за 5-10 минут 🙂 Не реклама, но я был доволен когда расчитал подробнее про то как это работает

Vladimir Samoylov
Ну вот Aurora очень хорошо переживает такие штуки....

Потому что там пол капотом совсем все другое)

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Объясните, пожалуйста, почему компилятор ругается на использование в условии неинициализированной переменной: int x; Task.Run(async () => { x = await somefunc(); }).Wait...
Александр
5
Ребят, подскажите, пожалуйста, почему в префиксе к ассетам, которые генерируются через фильтр | theme в шаблоне, стал вдруг появляться index.php? Вот так выглядит ссылка на а...
Виталий
1
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
1. https://www.kaggle.com/code/ahmadrezagholami2001/housing-estimation-linear-regression 2. https://www.kaggle.com/code/ahmadrezagholami2001/uncovering-quality-in-wines-logis...
Ahmadreza
1
Блин, ребята, сори за тупые вопросы. А можно ли как-то открыть вебапку по нажатию на кнопку в меню(которое появляется слева, команды)?
Artem Stormageddon
3
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Карта сайта