apache spark Hadoop大数据分析的相关内容

阿里云文档 2025-06-05

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时，您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-04-03

如何通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架，拥有Hadoop MapReduce所具有的计算优点，能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比，减少了中间数据读取磁盘的过程，进而提高了处理能力。本文介绍如何通过ES-Hadoop实现Hadoop的Spark服务读写阿里云Elasticsearch数据。

阿里云文档 2023-09-13

如何在EMR的Hadoop集群中运行Spark作业对接DataHub数据_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

本文介绍如何在E-MapReduce的Hadoop集群，运行Spark作业消费DataHub数据、统计数据个数并打印出来。

文章 2017-09-01 来自：开发者社区

前　　言本书讲解了Apache Spark和Hadoop的基础知识，以及如何通过简单的方式将它们与最常用的工具和技术集成在一起。所有Spark组件（Spark Core、Spark SQL、DataFrame、Dataset、Conventional Streaming、Structured Streaming、MLlib、GraphX和Hadoop核心组件）、HDFS、MapReduce和Y....

文章 2017-09-01 来自：开发者社区

《Spark与Hadoop大数据分析》——3.7　小结

3.7　小结 RDD 是 Spark 中基本的数据单元，Spark 编程就是围绕创建和执行 RDD 上的操作（如变换和动作）进行的。Apache Spark 程序可以在 shell 中交互式执行或通过提交应用程序来执行。它的并行度是由 RDD 中的分区数量决定的。而分区的数量则由 HDFS 文件中的区块数或资源管理器的类型以及用于非 HDFS 文件的配置属性决定。在内存中缓存 RDD 对于在同....

文章 2017-09-01 来自：开发者社区

《Spark与Hadoop大数据分析》——3.6　Spark 资源管理器：Standalone、YARN和Mesos

3.6　Spark 资源管理器：Standalone、YARN和Mesos 在本章其他部分（在 PySpark shell 和应用程序中），我们已经在 Spark 的 Standalone 资源管理器中执行过 Spark 应用程序。让我们尝试理解这些集群资源管理器相互之间有什么不同，以及它们该在什么情况下使用。 3.6.1　本地和集群模式在继续讲解集群资源管理器之前，让我们来了解集群模式与本地....

文章 2017-09-01 来自：开发者社区

《Spark与Hadoop大数据分析》——3.5　持久化与缓存

3.5　持久化与缓存 Spark 的一个独特功能是在内存中持久化 RDD。你可以使用 persist 或 cache 变换来持久化 RDD，如下所示：上述两个语句都是相同的，并且会在 MEMORY_ONLY 存储级别缓存数据。它们的区别在于：cache 是指 MEMORY_ONLY 存储级别，而 persist 可以根据需要选择不同的存储级别，如下表所示。当第一次使用动作来进行计算时，它将保.....

文章 2017-09-01 来自：开发者社区

《Spark与Hadoop大数据分析》——3.4　Spark 应用程序

3.4　Spark 应用程序让我们来了解 Spark Shell 和 Spark 应用程序之间的区别，以及如何创建和提交它们。 3.4.1　Spark Shell 和 Spark 应用程序 Spark 让你可以通过一个简单的、专门用于执行 Scala、Python、R 和 SQL 代码的 Spark shell 访问数据集。用户探索数据并不需要创建一个完整的应用程序。他们可以用命令开始探索数据....

文章 2017-09-01 来自：开发者社区

《Spark与Hadoop大数据分析》——3.3　Spark 程序的生命周期

3.3　Spark 程序的生命周期以下步骤讲解了配备 Standalone 资源管理器的 Spark 应用程序的生命周期，图3-8 显示了Spark程序的调度过程：（1）用户使用 spark-submit 命令提交一个 Spark 应用程序。（2）spark-submit 在同一节点（客户端模式）或集群（集群模式）上启动驱动进程，并调用由用户指定的 main 方法。（3）驱动进程联系集群管理....

文章 2017-09-01 来自：开发者社区

《Spark与Hadoop大数据分析》——3.1　启动 Spark 守护进程

3.1　启动 Spark 守护进程如果你计划使用 Standalone 的集群管理器，则需要启动 Spark 的主机（master）和工作机（worker）的守护进程（daemon），它们是 Spark 架构的核心组件。守护进程的启动/停止在不同的发行版里略有差异。Hadoop 发行版（如 Cloudera、Hortonworks 和 MapR）会把 Spark 作为服务，并把 YARN 作为....

共有31条

< 1 2 3 4 >

跳转至： GO

更新时间 2023-01-22 08:07:37

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

apache sparkhadoop大数据相关内容

apache spark更多hadoop相关

apache spark您可能感兴趣

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区，定期推送精彩案例，问答区数个 Spark 技术同学每日在线答疑，只为营造 Spark 技术交流氛围，欢迎加入！

+关注