неравномерно распределены сущности. Надо выбрать некоторую часть от всех сущностей, чтобы выборка соответствовала распределению данных по типам и подтипам. Это через семплирование можно сделать? Если хеш от идентификатора сущности, как ключ семплирования делать - выборка по нему не покрывает все типы и подтипы сущностей.
Или надо ключ сэмплирования делать по идентификатору сущности, а потом через union all перебрать выборки по 10% из типов подтипов?
Обсуждают сегодня