Всем привет! есть хранилище в hdfs, таблицы hive в parquet

Question

Всем привет! есть хранилище в hdfs, таблицы hive в parquet

формате
бизнесу необходимо быстро получать несколько строчек по конкретным id
так как индексов в hive нет, получение нескольких строк занимает долгое время, так как идёт full scan
поэтому предлагают перегружать таблицы в greenplum
подскажите, хорошая ли эта идея, сможет ли гринплам отдавать строчки по конкретным айди?

#hadoop #russian #software

0

08.06.2023

8 ответов

38 просмотров

Grigory Pomadchin

кстати что бы не было фулскана можно партицировать по нужным столбцам, паркет на записи статистику соберет и на фильтре запушдаунит, главное что б размеры файлов были не слишком большие и размеры роу групп в каждом паркет файле; тогда фулл скана не будет

0

08.06.2023

Сиплый

При записи сортируй по id. Если id не рандомная хрень - будет вытаскивать быстро

0

08.06.2023

Сиплый

Artem
В Databricks есть bloom filters, мб найдете что-то...

Он и в паркетах есть

0

08.06.2023

Mark Podkolzin Автор вопроса

Сиплый
При записи сортируй по id. Если id не рандомная хр...

а что такое рандомная хрень? uuid?

0

08.06.2023

Сиплый

Mark Podkolzin
а что такое рандомная хрень? uuid?

Ага. Тогда сортировать не имеет смысла

0

08.06.2023

Vitaly Pismarev

Сиплый
Он и в паркетах есть

у бриксов он по другому организован немного. Вся суть его как раз вообще не сканировать файлики а сразу взять нужные. Поэтому блюм индекс в бриксах живет в отдельной папочке и используется до сканирования файлов данных Удобно его использовать когда хотят вот в каких-то случаях сканировать без указания ключа партиции. Работает в целом сносно и быстрее фуллскана

0

08.06.2023

Сиплый

Vitaly Pismarev
у бриксов он по другому организован немного. Вся с...

Да, все так. В обычных паркетах блюм в метадате row group

0

08.06.2023

Artem · Accepted Answer

Artem

В Databricks есть bloom filters, мб найдете что-то похожее

0

08.06.2023

52 похожих чатов

Всем привет! есть хранилище в hdfs, таблицы hive в parquet

8 ответов

Похожие вопросы