ряды множеству (~1000) параллельных экзекьюторов. Есть пара идей, не могу выбрать лучшую, может сообщество что подскажет.
1. Выбрать базу для временных рядов типа Influx или Timescale и сложить данные туда. Я не уверен что база не будет батлнеком здесь.
2. Сложить в файлы (типа паркета или ORC) тупо на внутренний дата сторадж и читать оттуда. Интуитивно кажется так будет лучше с точки зрения перформанса на чтение, но тогда если придется фильтровать (редко, но возможно) в памяти. Плюс больше заморочек с обновлением и управлением.
3. Никогда не работал с DWH, но может это то что мне надо? Нагуглил Hive, звучит заманчиво, но у меня нет с ним опыта.
Может кто-то может сказать куда точно лезть не стоит и что правильное направление?
В КХ влезь, вроде все его любят для этого (но не я, если что 😬)
КХ для такого кейса хороший вариант, с учётом того, что загруженные данные не будут изменяться
Обсуждают сегодня