чистки дублирующихся данных в целях экономии места, но не даёт гарантии отсутствия дубликатов». Есть ли у кого-то понимание, насколько надежен этот механизм и в каких случаях дубликаты не сливаются/вычищаются?
Абсолютно надежен, если фоновый merge запустился на сабсет кусков таблицы, то все дубликаты в них будут удалены. Дубликаты не сливаются, если записи находятся в разных кусках, при этом на эти куски не запускается merge, такое может быть: 1. Если куски принадлежат разным партициям 2. Если куски уже достаточно большие (по дефолту кажется 150гб) и их не нужно мержить 3. Превышен порог на общее число кусков (редкий случай) 4. Если кончилось место на диске
Обсуждают сегодня