172 похожих чатов

Друзья, интересный кейс). Проблема в базе postgresql(v10.18) рабочего сайта, в

двух таблицах скопилось много мусора(не был правильно выстроен процесс удаления продуктов):
spree_datafeed_rows(~250млн записей, >100GB, 1 индекс)
связана 1 к 1 с
spree_datafeed_products(>300млн записей, >400GB, 8 индексов!)
также связана один к одному с spree_products(~3 млн актуальных записей).
Написал следующую функцию:

CREATE OR REPLACE FUNCTION delete_extra_products_datafeeds()
RETURNS void AS
$func$
declare
i record;
BEGIN
FOR i IN (SELECT * FROM "spree_datafeed_products")
LOOP
IF NOT EXISTS (SELECT * FROM "spree_products" WHERE "spree_products"."id" = i.product_id LIMIT 1) THEN
DELETE FROM "spree_datafeed_products" WHERE "spree_datafeed_products"."id" = i.id;
END IF;
END LOOP;
END;
$func$ LANGUAGE plpgsql;
С расчетом для одной таблицы вначале запустить, после для другой(логика схожая).
Если правильно понимаю, она пытается отработать в одной транзакции(что в таких масштабах наврядли возможно). Как правильно сегментировать транзакции, и паралельно все это дело запустить?)
Есть понимание, что сильно мешают индексы, но даже удаляются они долго. С чем это связано и можно ли на это повлиять?)
Наверно у postgres еще есть другие инструменты или подходы, для решения подобных проблем?)

15 ответов

20 просмотров

Не вчитывался в подробности, но вам явно надо почитать https://habr.com/ru/post/523536

>Написал следующую функцию: Зачем? Пока что это выглядит как очень плохо написанная функцыя, которая зачем-то заменяет один-два тривиальных оператора DELETE (один, в случае если там есть REFERENCE KEY ON DELETE CASCADE правильный). >она пытается отработать в одной транзакции(что в таких масштабах наврядли возможно). Возможно. Дажэ места не особо много займёт (вот если бы UPDATE -- то могло бы всё раза в два разбухнуть, а DELETE-то вообще только всё перезапишэт). >Как правильно сегментировать транзакции, и паралельно все это дело запустить?) У меня есть подозрение, что в память это всё у вас не очень влезает -- потому запускать параллельно это будет достаточно бесполезно. А как сегментировать -- да хоть по id. Тысяч по 100 за раз.

Ahmad-Zakhratulaev Автор вопроса
Ilya Anfimov
>Написал следующую функцию: Зачем? Пока что это ...

Пришел к такому запросу: with batch(id) as ( select id from "spree_datafeed_rows" where NOT EXISTS (SELECT * FROM "spree_datafeed_products" WHERE "spree_datafeed_products"."id" = "spree_datafeed_rows"."datafeed_product_id" LIMIT 1) order by id limit 10000 for update skip locked ), del as ( delete from "spree_datafeed_rows" where id in (select id from batch) returning id ) select now(), count(*) from batch; Но не знаю как его запустить для всей таблицы(с шагом в 10000) без процедур

Ahmad Zakhratulaev
Пришел к такому запросу: with batch(id) as ( sel...

Если вы хотите разбить на разные транзакции, то лучше сделайте цикл на клиенте. БЕз процедур у вас будет одна большая транзакция

Ahmad-Zakhratulaev Автор вопроса
alex che
Если вы хотите разбить на разные транзакции, то лу...

Если буду писать цикл на клиенте, нужно будет добавить ещё один where (для разбиения по айдишникам), учитывая что в таблице >300млн записей, такой селект "дорого обходится")

Ahmad Zakhratulaev
Если буду писать цикл на клиенте, нужно будет доба...

Обычно выборка небольшого диапазона (десятки тысяч) по id наоборот шустро работает, потому что задействует гарантированно имеющийся индекс по первичному ключу

Ahmad-Zakhratulaev Автор вопроса
Andrey Novikov
Обычно выборка небольшого диапазона (десятки тысяч...

Ок попробую, ещё если правильно понимаю при таком удалении у меня будет много записей помеченных как удаленные. Чтобы это не мешало производительности как их "чистить"?

Ahmad Zakhratulaev
Если буду писать цикл на клиенте, нужно будет доба...

А если цикл в запросе/процедуре, то локи останутся до конца транзакции

Ahmad-Zakhratulaev Автор вопроса
alex che
А если цикл в запросе/процедуре, то локи останутся...

У psql нет инструментов для комитов внутри транзакции?))

Ahmad Zakhratulaev
Ок попробую, ещё если правильно понимаю при таком ...

Если у вас достаточно агрессивно настроен автовакуум, то он довольно быстро возбудится от количества изменений и начнёт за вами подчищать. Ну или можно вручную вызывать VACUUM на таблице раз в несколько миллионов или десятков миллионов удалённых строк.

Ahmad-Zakhratulaev Автор вопроса
Andrey Novikov
Если у вас достаточно агрессивно настроен автоваку...

Он тяжело и долго отрабатывает, настройки стандартные (из коробки), падозреваю что он чаще падает) Также на одной таблице 8 индексов ~40гб каждый, что делает задачу веселее Х)

Ahmad Zakhratulaev
Он тяжело и долго отрабатывает, настройки стандарт...

Настройки авовакуума «из коробки» недостаточно агрессивные, их обычно рекомендуют менять

Ahmad-Zakhratulaev Автор вопроса
Andrey Novikov
Настройки авовакуума «из коробки» недостаточно агр...

Вообще была мысль отключить вакуум на время, изолировать таблицы с мусором для чистки, но пока не понимаю как это можно сделать

Ahmad Zakhratulaev
Вообще была мысль отключить вакуум на время, изоли...

Автовакуум можно отключать для отдельных таблиц: ALTER TABLE sometable SET ( autovacuum_enabled = false, toast.autovacuum_enabled = false ); https://postgrespro.ru/docs/postgresql/14/sql-createtable#RELOPTION-AUTOVACUUM-ENABLED

Ahmad Zakhratulaev
Пришел к такому запросу: with batch(id) as ( sel...

1) Зачем вам FOR UPDATE? У вас правда кто-то будет писать в эту таблицу в это время? И столько писать, что повторить запрос -- какая-то проблема? 2) LIMIT 1 теоретически не имеет смысла, а практически -- можэт сломать какую-нибудь оптимизацыю. 3) Запускать это последовательно для всей таблицы -- я бы советовал на каком-нибудь процэдурном клиентском языке. Из питона там или ноды, смотря что знаете. В десятке, собственно, разбить это на куски внутри процэдуры -- невозможно. В смысле разбить-то можно, только смысла в этом будет ноль -- оно всё равно будет в одной транзакцыи. Можно сразу запускать на все 100 миллионов.

Похожие вопросы

Обсуждают сегодня

Всем привет! Имеется функция: function IsValidChar(ch: UTF8Char): Boolean; var i: Integer; ValidChars: AnsiString; begin ValidChars := 'abcdefghijklmnopqrstuvwxyzABCDE...
Евгений
44
Чтобы перехватить все нажимания буков на форме, надо хук ставить? Пробовал на форме ОнКейДаун, оно ловит клаву если фокус не на компоненте с вводом текста
Serjone
15
лучше скажите, причём тут паскаль?
Alexey Kulakov
36
Всем привет! вывожу на общей стр дочерние ресурсыв каждом ресурсе галерея, и первая фотка должна выводиться на общей [!DocLister? &prepare=photo !]
Alekso
12
А можно вопрос? Мне сегодня сказали что у меня функция (которая просто заполняет массив значениями) не правильная void Full(double * arr, int n) { for (int i = 0; i < n; i...
† C E †
7
День добрый, подскажите пожалуйста, есть ли какой-то способ сказать ребару не компилировать определённое приложение? Всю доку их перечиатл ничего подобного не нашёл
Кирилл
14
Добрый вечер. Хочу чтобы у меня в классе поле было функцией, которая возвращает строку. Делаю так: interface ... TGetOutPath = function : String of object; ... protec...
Kirill Filippenok
12
Народ! Впервые клиенту пришло письмо от РКН, у вас, дескать, есть яндекс метрика, а нигде не написано, что вы ее юзаете. Никто не сталкивался?
Sasha Beep
10
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Здравствуйте, хочу сделать HelloWorld в консоли Дельфи, но функция API ничего не выводит, что я делаю не так? program Hello; {$APPTYPE CONSOLE} uses System.SysUtils, WinAPI.Wi...
Sergey Vinogradov
20
Карта сайта