потому что при каждом мерже, rand() будет вычияться заново и давать новый результат...
А если я сделаю поле для сэмплирования sample_id MATERIALIZED rand(), то какие будут минусы? Не совсем понимаю, чем rand() будет хуже, чем хэш от каких-то полей.
Можно. Разница в том, что вы не сможете гарантировать, что строки с какими-то значениями полей (например, с одним идентификатором посетителя) всегда будут целиком попадать или целиком не попадать в сэмпл. Кстати, DEFAULT на практике более удобен чем MATERIALIZED.
Обсуждают сегодня