hdfs apache spark 的相关内容

阿里云文档 2025-06-05

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时，您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-04-02

如何通过在CDP集群中部署JindoSDK4.5.0访问OSS-HDFS服务相关操作

本文介绍如何通过在CDP集群中部署JindoSDK（4.5.0），访问OSS-HDFS服务相关操作。

阿里云文档 2024-10-28

Spark读写OSS-HDFS数据源

云原生数据仓库 AnalyticDB MySQL 版Spark支持访问OSS-HDFS数据源，本文介绍如何使用Spark来操作OSS-HDFS数据。

文章 2024-08-28 来自：开发者社区

Hadoop生态系统概览：从HDFS到Spark

引言 Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。它由多个组件构成，旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件，包括HDFS、MapReduce、YARN，并探讨它们如何与现代大数据处理工具如Spark集成。 Hadoop核心组件 HDFS (Hadoop Distrib...

文章 2023-12-25 来自：开发者社区

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

作为一位Java大师，我始终追求着技术的边界，最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中，我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度，系统地介绍这些技术。是什么？HadoopHadoop是一个开源的分布式计算框架，它能够高效地处理大规模数据集。它的核心是分布式文件系统HDFS和分布式计算模型MapRe....

阿里云文档 2023-10-08

Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据

本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。

阿里云文档 2023-07-13

在EMR Hive或Spark中访问OSS-HDFS

EMR-3.42及后续版本或EMR-5.8.0及后续版本的集群，支持OSS-HDFS（JindoFS服务）作为数据存储，提供缓存加速服务和Ranger鉴权功能，使得在Hive或Spark等大数据ETL场景将获得更好的性能和HDFS平迁能力。本文为您介绍E-MapReduce（简称EMR）Hive或Spark如何操作OSS-HDFS。

问答 2023-01-15 来自：开发者社区

可否在后面总结RDS（hdfs spark presto)那里加上对emr-impala 的补充？

文章 2022-11-07 来自：开发者社区

大数据编程实验一：HDFS常用操作和Spark读取文件系统数据

一、前言这是我们大数据专业开设的第二门课程——大数据编程，使用的参考书是《Spark编程基础》，这门课跟大数据技术基础是分开学习的，但这门课是用的我们自己在电脑上搭建的虚拟环境进行实验的，不是在那个平台上，而且搭建的还是伪分布式，这门课主要偏向于有关大数据编程方面的，而且使用的编程语言是Python。我上课的时候也没有怎么听，所以我再自己做一遍实验。二、实验目的与要求掌握在Linux虚拟机中安装....