json, как я понял
Да, структура есть, у всех одинаковая иногда nested
Если данные просто читаются и никогда не записываются, то самый лучший способ будет просто хранить это всё в файловой системе со снэпшотами (типа ZFS)
Да только чтение, ну и нужно иметь возможность что-то извлечь из них, какой-то кусок отгрысть.
> возможность что-то извлечь из них, какой-то кусок отгрысть. В каком плане? Читать и обрабатывать сразу несколько в пайплайне типа map-reduce? Или точечно? Искать внутри по определённым путям? Документы как-то проиндексированы? Или хочется всё сканировать?
Обрабатывать ни чего не нужно. Например нужно взять те записи которые имеют city: “New York” + может добавить ещё 2-3 параметра для поиска, те что совпадут нужно вытянуть и уже закинуть в постгрес например для дальнейшей работы. Вообщем две задачи: 1. Хранение 2. Редкие запросы на чтение
Ну тоесть сканирующие запросы. 120 миллионов будут работать довольно долго, нужно индексировать. Можно текстовый индекс типа эластика, можно ещё какой-то
Обсуждают сегодня