Почему именно из файла надо напрямую?

Question

Data Engineers

Макар

Почему именно из файла надо напрямую?

#hadoop #russian #software

0

31.07.2023

16 ответов

15 просмотров

Макар Автор вопроса

Pavel Tarasov
предполагаю так быстрее? если нужен именно этот фа...

Не уверен. Возможно первый вариант под собой будет нести не только "прочитать файл", а еще какие-то манипуляции, которые query engine делает за нас.

0

31.07.2023

Pavel Tarasov

Макар
Не уверен. Возможно первый вариант под собой будет...

Ну вот мой внутренний заказчик клянется что не будет никаких изменений и они хотят это читать с минимальной задержкой, предпологаю что чтение просто файла будет быстрее всего.

0

31.07.2023

Konstantin Sh S.

Pavel Tarasov
Ну вот мой внутренний заказчик клянется что не буд...

Пишешь в файлы. Берешь это и все https://duckdb.org/ весь твой двх решен

0

31.07.2023

Pavel Tarasov

Хм. А аналитики типа в джупитер ноутбуках это будут использовать? А когда не влезет в память?

0

31.07.2023

Konstantin Sh S.

Pavel Tarasov
Хм. А аналитики типа в джупитер ноутбуках это буду...

https://duckdb.org/docs/guides/python/jupyter.html

0

31.07.2023

Vitaly Pismarev

Pavel Tarasov
Ну вот мой внутренний заказчик клянется что не буд...

кликхаус еще для таймсериез хорошо заходит.

0

31.07.2023

Pavel Tarasov

Konstantin Sh S.
https://duckdb.org/docs/guides/python/jupyter.html

я может проглядел, но не понимаю все еще как это поможет если надо будет в память сложить что-то больше, чем память ноутбука

0

31.07.2023

Vitaly Pismarev

Vitaly Pismarev
кликхаус еще для таймсериез хорошо заходит.

но если требование чтобы лежало в файлах в открытом формате то тут вариантов особо и нет.

0

31.07.2023

Pavel Tarasov

Vitaly Pismarev
кликхаус еще для таймсериез хорошо заходит.

да, но я так понял там специалиазация на широких таблицах, денормализованные данные, читаем только часть колонок. я пока планировал наоборот отчистить все таймсерии, вынести все метаданные отдельно и хранить как узкие таблицы. можно конечно денормализовать это все, но это прям большое изменение в дизайне. и к тому же тогда часть данных надо будет держать в кликхаусе, а часть в файлах все равно, не хочу такое

0

31.07.2023

Pavel Tarasov

Vitaly Pismarev
но если требование чтобы лежало в файлах в открыто...

ага

0

31.07.2023

Dmitry [Altinity] Titov

Pavel Tarasov
да, но я так понял там специалиазация на широких т...

Очень много всяких контор хранят таймсериес в КХ, просто вертикальные таблицы, работает для всяких сложных запросов лучше чем timeseriesDB

0

31.07.2023

Pavel Tarasov

Dmitry [Altinity] Titov
Очень много всяких контор хранят таймсериес в КХ, ...

просто в виде sensor_id,timestamp,value?

0

31.07.2023

Dmitry [Altinity] Titov

Pavel Tarasov
просто в виде sensor_id,timestamp,value?

Атож

0

31.07.2023

Vitaly Pismarev

Pavel Tarasov
просто в виде sensor_id,timestamp,value?

метрики всякие удобно еще хранить и потом визуализировать в графане

0

31.07.2023

Pavel Tarasov

Vitaly Pismarev
метрики всякие удобно еще хранить и потом визуализ...

но у меня не совсем как у метрик вроде паттерн использования

0

31.07.2023

Pavel Tarasov · Accepted Answer

Pavel Tarasov

предполагаю так быстрее? если нужен именно этот файл и все колонки в файле - быстрее наверное прочитать паркет файл из s3 из одного из экзекьюторов, чем прогонять запрос select * from file через query engine?

0

31.07.2023

52 похожих чатов

Почему именно из файла надо напрямую?

16 ответов

Похожие вопросы