столбцы col1,...,col14 (text/int).
Есть два случая.
------ ПЕРВЫЙ СЛУЧАЙ:
1.1. Добавлен столбец col15::text, и заполнен значениями на основе данных из первых 14ти стобцов выражением, которое содержит внутри себя (~) конкатенацию с разделителем искомых столбцов, приведение в верхний регистр, и взятие MD5 хеша от всего это дела. То есть, некий отпечаток строки (так и будем называть в дальнейшем).
1.2. Запрос вида CREATE TABLE table1_v1 ( LIKE table1 INCLUDING DEFAULTS INCLUDING CONSTRAINTS );, добавление уникального индекса по col15, и попытка INSERT INTO table1_v1 (SELECT * FROM table1) ON CONFLICT DO NOTHING;
------ ВТОРОЙ СЛУЧАЙ:
2.1. Запрос вида CREATE TABLE table1_v2 ( LIKE table1 INCLUDING DEFAULTS INCLUDING CONSTRAINTS );, добавление уникального индекса по выражению, которое аналогично выражению из п.1.1.
2.2. Попытка INSERT INTO table1_v2 (SELECT * FROM table1) ON CONFLICT DO NOTHING;
Как мы видим, во втором случае не создается доп. столбец с "отпечатком" строки, а сразу создается индекс по выражению (что, по идее, будет меньше весить — т.к. есть только индекс).
Непосредственно вопрос: ощутима ли будет деградация по скорости между вариантами 1 и 2?
Иначе говоря,существенна ли разница в случаях, когда:
1. Создается доп. столбец типа text с "отпечатком" строки, а затем уже по нему порождается unique индекс
2. Сразу порождается unique индекс, но не по столбцу с "отпечатком" (ведь его нет), а по выражению, которое внутри себя аналогично этому "отпечатку".
И тут дедупликация.. Вопрос про эффективность работы, но непонятно , какой. Разово заполнить можно любым способом, дольше сравнивать.
Обсуждают сегодня