Подскажите по ходупу. С точки зрения процесса. Спарк забирает

из источников , преобразует и кладёт в хдфс. А читают тоже с хдфс или из него данные попадают в хбэйс и хайв?

5 ответов

16 просмотров

В типичном процессе использования Apache Spark данные могут быть считаны из различных источников, затем преобразованы и сохранены. В контексте работы с Hadoop Distributed File System (HDFS), Spark может использовать HDFS как источник данных, а также в качестве хранилища результатов. Итак, данные могут быть считаны из различных источников, таких как базы данных, файловые системы или внешние источники данных. Spark предоставляет API для работы с разными форматами данных и источниками, включая HDFS, Hive и HBase. После загрузки данных Spark выполняет операции преобразования и анализа с использованием распределенных вычислительных ресурсов. Результирующий набор данных может быть сохранен в различных форматах и хранилищах, включая HDFS, Hive или HBase. Таким образом, Spark может как читать данные из HDFS, так и записывать данные в HDFS, Hive или HBase, в зависимости от вашего выбранного хранилища и потребностей вашего процесса обработки данных.

Dushman- Автор вопроса

О супер, тогда вопрос с чем связан выбор каждого таргета из этих трёх

Dushman
О супер, тогда вопрос с чем связан выбор каждого т...

Выбор таргета (цели) данных (HDFS, Hive или HBase) зависит от конкретных требований и характеристик вашего проекта или аналитической задачи. Вот несколько соображений, которые могут помочь в выборе таргета для хранения и обработки данных: 1. HDFS (Hadoop Distributed File System): HDFS является распределенной файловой системой, хорошо масштабируемой и подходит для хранения больших объемов неструктурированных или полуструктурированных данных. Если ваша задача предполагает обработку больших объемов данных, в том числе с использованием распределенных алгоритмов Spark, то HDFS может быть хорошим выбором. 2. Hive: Hive - это среда для выполнения аналитических запросов и обработки данных, построенная поверх Hadoop и HDFS. Hive предоставляет SQL-подобный язык запросов, позволяющий выполнять сложные операции аналитики на больших объемах данных. Если вы больше предпочитаете использовать SQL для работы с данными и требуется поддержка метаданных и схемы, Hive может быть хорошим выбором. 3. HBase: HBase - это распределенная NoSQL база данных, которая основана на модели ключ-значение (key-value). HBase обеспечивает скоростной доступ к данных и подходит для случаев, когда требуется высокая производительность при чтении и записи данных. Если вашей задачей является обработка данных с высокими требованиями к производительности и низкой задержкой, HBase может быть подходящим выбором. Окончательный выбор таргета данных зависит от особенностей вашей задачи, требований к масштабируемости, производительности, структурированности данных и предпочтений в использовании определенной технологии и языка запросов. Также важно учесть наличие и поддержку инфраструктуры для каждого из таргетов данных.

Похожие вопросы

Обсуждают сегодня

Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Объясните, пожалуйста, почему компилятор ругается на использование в условии неинициализированной переменной: int x; Task.Run(async () => { x = await somefunc(); }).Wait...
Александр
5
Ребят, подскажите, пожалуйста, почему в префиксе к ассетам, которые генерируются через фильтр | theme в шаблоне, стал вдруг появляться index.php? Вот так выглядит ссылка на а...
Виталий
1
Всем привет. Ребята, подскажите, пожалуйста. у ботов есть ограничение на отправку сообщений - 30 сообщений в секунду, эти ограничения накладываются на все сообщения? или на со...
Artem Stormageddon
4
Блин, ребята, сори за тупые вопросы. А можно ли как-то открыть вебапку по нажатию на кнопку в меню(которое появляется слева, команды)?
Artem Stormageddon
3
а плаксы из-под питона умеют только в комфортных условиях что-то выдавить из себя?)
Lencore
9
Но, может, есть уже проверенная? Наши требования такие: 1. Сообщения должны приходить из Инста в CRM оду 2. Должна быть возможность подключить несколько экаунтов Инстаграм. Р...
Alexander Sharoiko MSE / Александр Шаройко
13
Это может быть все-таки не флудвейт? у меня ботфазер принимает изменения и отображает даже что они изменились, на видео видно что он прислал якобы уже измененное описание, н...
OVERLINK
13
Коллеги, может знает кто, можно ли цвет бейджа счётчика в BackendMenu менять без бубнов?
Alex Blaze
3
Карта сайта