Подскажите по ходупу. С точки зрения процесса. Спарк забирает

из источников , преобразует и кладёт в хдфс. А читают тоже с хдфс или из него данные попадают в хбэйс и хайв?

5 ответов

5 просмотров

В типичном процессе использования Apache Spark данные могут быть считаны из различных источников, затем преобразованы и сохранены. В контексте работы с Hadoop Distributed File System (HDFS), Spark может использовать HDFS как источник данных, а также в качестве хранилища результатов. Итак, данные могут быть считаны из различных источников, таких как базы данных, файловые системы или внешние источники данных. Spark предоставляет API для работы с разными форматами данных и источниками, включая HDFS, Hive и HBase. После загрузки данных Spark выполняет операции преобразования и анализа с использованием распределенных вычислительных ресурсов. Результирующий набор данных может быть сохранен в различных форматах и хранилищах, включая HDFS, Hive или HBase. Таким образом, Spark может как читать данные из HDFS, так и записывать данные в HDFS, Hive или HBase, в зависимости от вашего выбранного хранилища и потребностей вашего процесса обработки данных.

Dushman- Автор вопроса

О супер, тогда вопрос с чем связан выбор каждого таргета из этих трёх

Dushman
О супер, тогда вопрос с чем связан выбор каждого т...

Выбор таргета (цели) данных (HDFS, Hive или HBase) зависит от конкретных требований и характеристик вашего проекта или аналитической задачи. Вот несколько соображений, которые могут помочь в выборе таргета для хранения и обработки данных: 1. HDFS (Hadoop Distributed File System): HDFS является распределенной файловой системой, хорошо масштабируемой и подходит для хранения больших объемов неструктурированных или полуструктурированных данных. Если ваша задача предполагает обработку больших объемов данных, в том числе с использованием распределенных алгоритмов Spark, то HDFS может быть хорошим выбором. 2. Hive: Hive - это среда для выполнения аналитических запросов и обработки данных, построенная поверх Hadoop и HDFS. Hive предоставляет SQL-подобный язык запросов, позволяющий выполнять сложные операции аналитики на больших объемах данных. Если вы больше предпочитаете использовать SQL для работы с данными и требуется поддержка метаданных и схемы, Hive может быть хорошим выбором. 3. HBase: HBase - это распределенная NoSQL база данных, которая основана на модели ключ-значение (key-value). HBase обеспечивает скоростной доступ к данных и подходит для случаев, когда требуется высокая производительность при чтении и записи данных. Если вашей задачей является обработка данных с высокими требованиями к производительности и низкой задержкой, HBase может быть подходящим выбором. Окончательный выбор таргета данных зависит от особенностей вашей задачи, требований к масштабируемости, производительности, структурированности данных и предпочтений в использовании определенной технологии и языка запросов. Также важно учесть наличие и поддержку инфраструктуры для каждого из таргетов данных.

Dushman- Автор вопроса

Похожие вопросы

Обсуждают сегодня

Я хочу запустить свой проект в тг. Что-то между пирамидой и майнилкой. Еще подобного ничего не было. Уникальная идея. Нужен именно не бот, а приложение. С ввод, выводом тон...
Павел А.
6
Всем доброго вечера! Хочу поделиться своим злоключением с человеком, который, как оказалось сюда тоже скидывал свое резюме. Жаль, что я вашу группу не нашел раньше… человек ки...
Роман Ахмедзянов
4
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
11
господа, когда у вас в боте есть локализация (ру + англ, остальные языки пока не планируются), вы на первом старте как с языком решаете вопрос: смотрите на language_code приле...
Denis 🐍|👑 | darling! 🥰
5
Я колись ставив гуглу антиспам 3.0, може і норм, але мені не дуже зайшло. Теж думав тиждень, що його і куди. Зупинився на трех варіантах відразу всі три і включив 1. Перевір...
𝓔𝓾𝓰𝓮𝓷𝓮𝓥 J
2
Всем привет, Добавил в плагин определение user agent public function registerMarkupTags() { return [ 'filters' => [ 'staticPage' => ['RainLab\Pages\Cl...
John Norton Kruger
3
А чего при переходе с 2 на 3 все что в билдере сделано тютю?
Денис Александрович
5
Кому нибудь нужен плагин для генерации метатегов? А если нужен что бы вам хотелось в нем видеть?
Black Cat
3
Портфолио: Зовут меня Александр, мне 36 лет. Город Пушкино. Общий рабочий стаж: ~14 лет Уровень квалификации: Senior Full-stack developer Где прочесть мой код? https://github....
Magic
10
где собака, админ группы? нычкуется и боится проявить волю, в толерантность еще не наигрался? @yelizariev
Ognezar
61
Карта сайта