Всем привет! есть хранилище в hdfs, таблицы hive в parquet

формате
бизнесу необходимо быстро получать несколько строчек по конкретным id
так как индексов в hive нет, получение нескольких строк занимает долгое время, так как идёт full scan
поэтому предлагают перегружать таблицы в greenplum
подскажите, хорошая ли эта идея, сможет ли гринплам отдавать строчки по конкретным айди?

8 ответов

7 просмотров

В Databricks есть bloom filters, мб найдете что-то похожее

кстати что бы не было фулскана можно партицировать по нужным столбцам, паркет на записи статистику соберет и на фильтре запушдаунит, главное что б размеры файлов были не слишком большие и размеры роу групп в каждом паркет файле; тогда фулл скана не будет

При записи сортируй по id. Если id не рандомная хрень - будет вытаскивать быстро

Mark-Podkolzin Автор вопроса
Mark Podkolzin
а что такое рандомная хрень? uuid?

Ага. Тогда сортировать не имеет смысла

Сиплый
Он и в паркетах есть

у бриксов он по другому организован немного. Вся суть его как раз вообще не сканировать файлики а сразу взять нужные. Поэтому блюм индекс в бриксах живет в отдельной папочке и используется до сканирования файлов данных Удобно его использовать когда хотят вот в каких-то случаях сканировать без указания ключа партиции. Работает в целом сносно и быстрее фуллскана

Vitaly Pismarev
у бриксов он по другому организован немного. Вся с...

Да, все так. В обычных паркетах блюм в метадате row group

Похожие вопросы

Обсуждают сегодня

Ребят, а за скок можно впарить анон чат с апишкой и веб админкой ?
Eugene Неелов
15
А как заставить поиск искать? Есть такая формочка <select class="form-control custom-select" name="brand_id" data-handler="onGetBrands"></select>
Денис Александрович
5
'frakturBold' => ['𝖆', '𝖇', '𝖈', '𝖉', '𝖊', '𝖋', '𝖌', '𝖍', '𝖎', '𝖏', '𝖐', '𝖑', '𝖒', '𝖓', '𝖔', '𝖕', '𝖖', '𝖗', '𝖘', '𝖙', '𝖚', '𝖛', '𝖜', '𝖝', '𝖞', '𝖟', '𝕬', '𝕭', '𝕮', '𝕯'...
Roma
4
с помощью чего можно бота добавить как админа в чат? (условно в боте есть кнопка, нажатие на которую приводит тебя к выбору чата и выдаче прав боту)
ηє νєямσяє
5
Ты просто гитлеровскую эстетику плохо понимаешь. Он же всё под Цезаря делал. А это как бы запрещённый приём в политике. Пиджаки они зачем все носят? Чтобы показать что они тип...
Ivan Kropotkin
4
Добрый день, не подскажите, если в OC-V3 поменять страндартную директорию /storage/ на /storage2/ - не будет сильно много проблем ?
Max Dubovsky
32
Добрый день, подскажите как правильно сделать filter в backend-e. Есть модель (товар) у который связь belongsToMany (компания), компаний > 4k, поэтому выборку типа ->all(); н...
Max Dubovsky
7
Или зателаешь в Шелл контейнера ?
Vladimir 
3
А цены чем оправданы?
Lencore
7
Каким то образом можно определить ширину экрана пользователя перед загрузкой partial-а? Надо рассчитать ширину кадров слайдера для ресайза картинок для container-fluid.
Point 111
22
Карта сайта