Кстати, а подскажите кто шарит, как лучше всего удалять дубликаты?

Question

Кстати, а подскажите кто шарит, как лучше всего удалять дубликаты?

У меня тут запрос после 2ух дней работы лег, я приуныл слегка... Разбил данные на 300 кусков (по 100к строк) и в 15 потоков запустил. Харды еле шуршат, может посоветуете как более оптимально написать запрос?

Я выбрал дубли в отдельную таблицу и запилил удаление:

egrip=# explain delete from egrip_versions v USING dups_ip2 where dups_ip2.ogrn = v.ogrn and dups_ip2.checksum = v.checksum and v.version < dups_ip2.ver and v.ogrn >= 0 and v.ogrn <= 10;
Delete on egrip_versions v (cost=1.13..17.30 rows=1 width=12)
-> Nested Loop (cost=1.13..17.30 rows=1 width=12)
-> Index Scan using egrip_versions_ogrn_version_idx on egrip_versions v (cost=0.57..8.59 rows=1 width=51)
Index Cond: ((ogrn >= 0) AND (ogrn <= 10))
-> Index Scan using dups_ip2_ogrn_idx on dups_ip2 (cost=0.56..8.70 rows=1 width=51)
Index Cond: (ogrn = v.ogrn)
Filter: ((v.version < ver) AND (v.checksum = checksum))
(7 rows)

Но у меня 100к строк удаляются где-то по часу (на 100к - 140к дублей)

#backend #devops #pgsql #programming #russian

0

02.06.2020

3 ответов

22 просмотра

Виктор Егоров

дробить на кусочки, которые за 2-5 минут отрабатывают (10к, скажем) и в несколько потоков

0

02.06.2020

D

может перелить в новую таблицу с уникальным индексом по ним и on conflict do nothing?

0

02.06.2020

Yaroslav Schekin · Accepted Answer

Странный план какой-то, на первый взгляд (оценки странные; и похоже, что индексы тут не оптимальные). Вы делали VACUUM ANALYZE каждой из этих таблиц? А, ещё: > Разбил данные на 300 кусков (по 100к строк) и в 15 потоков запустил. Какие данные / как "разбили" (мне, например, непонятно)?

172 похожих чатов

Кстати, а подскажите кто шарит, как лучше всего удалять дубликаты?

3 ответов

Похожие вопросы