Подскажите пути, как грохнуть дубли в здоровой таблице (около 1млрд

Question

Подскажите пути, как грохнуть дубли в здоровой таблице (около 1млрд

записей, около 500 гб), секционирована на около 60-70 секций

Есть уникальный для каждой записи db_id,есть chat_id и id, которые должны быть уникальными, но прокрались дубли.

Вариант по всей таблице
DELETE FROM messages
WHERE db_id NOT in (
SELECT min(db_id)
FROM messages
GROUP BY chat_id, id
);

Отваливается по памяти (съедает 8гб оперативы и 10гб свопа и через 4 часа рушится).

Он же по секции молотит больше 2часов, упираясь в ЦПУ (выедает одно ядро) без видимых результатов.

Нашел рабочий вариант - скопировать секцию в таблицу

SELECT min(db_id) as id into test_delete_temp
FROM messages_2021_m04
GROUP BY chat_id, id;

построить индекс и грохнуть всё в секции:

delete from messages_2021_m04 as t where not exists(select id from test_delete_temp where id=t.db_id);,

Он занимает около получаса на секцию. Вопрос: можно ли быстрее?

#backend #devops #pgsql #programming #russian

0

29.07.2021

18 ответов

37 просмотров

Yaroslav Schekin

Вы бы хоть планы (просто EXPLAIN) этих запросов посмотрели... а то непонятно, что и где там "отваливается".

0

29.07.2021

Eshu Marabo Автор вопроса

Yaroslav Schekin
Вы бы хоть планы (просто EXPLAIN) этих запросов по...

0

29.07.2021

Yaroslav Schekin

Eshu Marabo

Это на уровне "где-то происходит какая-то ошибка" (детализации-то нет). Смотрите планы.

0

29.07.2021

Eshu Marabo Автор вопроса

Yaroslav Schekin
Это на уровне "где-то происходит какая-то ошибка" ...

Спасибо)

0

29.07.2021

Ilya Anfimov

Я в таких случаях всегда сначала дубликвты выбираю (group by chat_id, id having count(*) > 1). Притом в отдельную табличку. А поиом ужэ думаю — как так получилось и как их отстреливать. Понятно, что отработает это только при наличии индэкса (chat_id, id, ...)

0

29.07.2021

Eshu Marabo Автор вопроса

Ilya Anfimov
Я в таких случаях всегда сначала дубликвты выбираю...

Ну я в итоге пошел тем же путем примерно, только выбрал не дубликаты а набор уникальных id и занялся отстрелом тех, что к ним не относится

0

29.07.2021

Ilya Anfimov

А вот чего он по памяти оиваливается — мне непонятно. По идее, сожрав shared_buffers и work_mem — должэн начать на диск всё перекладывать.

0

29.07.2021

Eshu Marabo Автор вопроса

Ilya Anfimov
А вот чего он по памяти оиваливается — мне непонят...

он схавал всю оперативку сервера (8гб) + весь своп (10гб)

0

29.07.2021

Eshu Marabo Автор вопроса

Eshu Marabo
он схавал всю оперативку сервера (8гб) + весь своп...

Часа за 4 *почти весь своп

0

29.07.2021

Ilya Anfimov

Eshu Marabo
Ну я в итоге пошел тем же путем примерно, только в...

Небольшая проблема такого подхода в том, что их там 500 миллиардов. Но это мелочи, да. Если нет дубликатов между разными партицыями — то дажэ без проблем отработает.

0

29.07.2021

Eshu Marabo Автор вопроса

Ilya Anfimov
Небольшая проблема такого подхода в том, что их та...

дубликатов - около 250 млн из миллиарда

0

29.07.2021

Ilya Anfimov

Eshu Marabo
он схавал всю оперативку сервера (8гб) + весь своп...

По моим представлегиям — хавать он должэн только shared_buffers+work_mem.

0

29.07.2021

Eshu Marabo Автор вопроса

мне тоже так казалось😂

0

29.07.2021

Ilya Anfimov

Eshu Marabo
дубликатов - около 250 млн из миллиарда

А они точно дубликаты информацыи? А не только пары айдишников?

0

29.07.2021

Eshu Marabo Автор вопроса

Ilya Anfimov
А они точно дубликаты информацыи? А не только пары...

увы, точно

0

29.07.2021

Sergey Nikitchenko

Eshu Marabo
дубликатов - около 250 млн из миллиарда

А если взять ваш любимый язык программирования и сделать скриптик, который берет одну строку ищет и удаляет ее дубли, запустить и оставить на недельку?

0

29.07.2021

Eshu Marabo Автор вопроса

Sergey Nikitchenko
А если взять ваш любимый язык программирования и с...

я прикинул - обработка займет около 15 лет😂😂😂

0

29.07.2021

Роман Жарков · Accepted Answer

Когда-то давно удалял пачками по 5000-50000 записей в зависимости от нагрузки. В цикле выбираем записи в список - темповую таблицу, потом удаляем по этому списку. Не знаю как в новых версиях, а в старой надо было не просохатить момент опустошения партиции и успеть сделать analyse.

172 похожих чатов

Подскажите пути, как грохнуть дубли в здоровой таблице (около 1млрд

18 ответов

Похожие вопросы