阿里云文档 2025-07-10

Spark Shell和RDD基础操作

本文为您介绍如何使用Spark Shell,以及RDD的基础操作。

阿里云文档 2024-05-11

使用Spark RDD API开发离线作业

本文介绍Spark如何访问SLS。

文章 2023-07-29 来自:开发者社区

Spark RDD 机制理解吗?RDD 的五大属性,RDD、DataFrame、DataSet 三者的关系,RDD 和 DataFrame 的区别,Spark 有哪些分区器【重要】

一、Spark RDD 机制:【重要】RDD(Resilient Distributed DataSet)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型,也是 Spark 进行高并发和高吞吐的数据处理三大数据结构之一,所有的算子都是基于 RDD 来执行的,不同的场景有不同的 RDD 实现类,他们互相之间可以进行转换,来实现特定的需求。RDD 代表一个弹性、可分区、不可变、里面的元素....

Spark RDD 机制理解吗?RDD 的五大属性,RDD、DataFrame、DataSet 三者的关系,RDD 和 DataFrame 的区别,Spark 有哪些分区器【重要】
问答 2021-12-05 来自:开发者社区

Spark中RDD的属性是什么?

Spark中RDD的属性是什么?

文章 2017-11-15 来自:开发者社区

Spark RDD概念学习系列之RDD的重要内部属性(十五)

RDD的重要内部属性       通过 RDD 的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。 1)分区列表:通过分区列表可以找到一个 RDD 中包含的所有分区及其所在地址。 2)计算每个分片的函数:通过函数可以对每个数据块进行 RDD 需要进行的用户自定义函数运算。 3)对父 RDD 的依赖列表:为了能够回溯到父 RDD,为容错等提供支持。...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问