Как сделать ReplacingMergeTree на все колонки?

простой ответ: запихивайте все столбцы в order by чуть более правильный ответ: не надо запихивать все столбцы в order by кейс заключается в том, что вы пишете полные дубликаты и хотите от них избавляться?

0

11.06.2021

Kuzma Leshakov Автор вопроса

Tagir Gumerov
простой ответ: запихивайте все столбцы в order by ...

Да

0

11.06.2021

Tagir Gumerov

Dmitry [Altinity] Titov
можно последним значением в ORDER BY добавить city...

о, прикольно

0

11.06.2021

Kuzma Leshakov Автор вопроса

Tagir Gumerov
простой ответ: запихивайте все столбцы в order by ...

"чуть более правильный ответ" критикуешь - предлагай)

0

15.06.2021

Tagir Gumerov

Kuzma Leshakov
"чуть более правильный ответ" критикуешь - предлаг...

так я написал про 2 ответа и уточнил у вас кэйс вы ответили, но рядом Дмитрий Титов предложил отличный вариант с cityHash

0

15.06.2021

Kuzma Leshakov Автор вопроса

Tagir Gumerov
так я написал про 2 ответа и уточнил у вас кэйс вы...

Я подумал, что у вас был свой вариант, но вы его не написали 🙌

0

15.06.2021

Tagir Gumerov

Kuzma Leshakov
Я подумал, что у вас был свой вариант, но вы его н...

на самом деле не было кроме вариантов использовать optimize table ... deduplicate (тоже не ахти вариант) или выяснения подмножества столбцов, которых было бы достаточно для дудупликации но есть привычка уточнять кэйс перед тем, как советовать что-то специфичное

0

15.06.2021

Kuzma Leshakov Автор вопроса

Tagir Gumerov
на самом деле не было кроме вариантов использовать...

чем плохо перечисление всех колонок?

0

15.06.2021

Tagir Gumerov

Kuzma Leshakov
чем плохо перечисление всех колонок?

В первом приближении потому что дедубликация идёт по ключу сортировки, и если явно не указать разные ключ сортировки и pk, то все столбцы полетят в оперативку (немного натянуто). Во втором приближении даже в фоне дорого сравнивать полные строки, сколько у вас столбцов? 5, 10, 100500? А решение с cityHash аккуратно закрывает обе проблемы

0

15.06.2021

Kuzma Leshakov Автор вопроса

Tagir Gumerov
В первом приближении потому что дедубликация идёт ...

👍

0

15.06.2021

Tagir Gumerov · Accepted Answer

в replacingMT есть 3 типа колонок: 1. те, что в ORDER BY — ключи дедупликации 2. опциональный version (не мб в ORDER BY) — отвечает за выбор строки (если нет, то остается последняя по вставке строка) 3. остальные — значения дедуплицируются что вы хотите получить?

184 похожих чатов

Как сделать ReplacingMergeTree на все колонки?

13 ответов

Похожие вопросы