apache spark学习rdd 的相关内容

阿里云文档 2024-05-11

使用Spark RDD API开发离线作业

本文介绍Spark如何访问SLS。

文章 2024-02-25 来自：开发者社区

Spark学习---day02、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

前言 Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量接下来我们一起看看这三大数据结构是如何在数据处理中使用的。...

阿里云文档 2023-09-03

如何在使用SparkShell和RDD（新）_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

本文为您介绍如何使用Spark Shell，以及RDD的基础操作。

文章 2023-08-04 来自：开发者社区

Spark学习--4、键值对RDD数据分区、累加器、广播变量、SparkCore实战（Top10热门品类）

一、键值对RDD数据分区Spark目前支持Hash分区、Range分区和用户自定义分区。Hash分区为当前默认的分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区和Reduce的个数。1、注意：（1）只有Key-Value类型的RDD才有分区器，非Key-Value类型的RDD分区器的值是None。（2）每个RDD的分区ID范围：0~（numPartiti....

文章 2023-08-04 来自：开发者社区

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化（二）

4、RDD持久化4.1 RDD Cache缓存1、RDD Cache缓存（1）RDD通过Cache或者persist方法将前面的计算结果缓存（2）默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。（3）但是并不是这个两个方法被调用时立即缓存，而是触发后面的action算子时，该RDD将会被缓存在计算节点的内存中，并供后面重用。2、创建包名com.zhm.spark.operator.cac....

文章 2023-08-04 来自：开发者社区

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化（一）

1、WordCount案例实操导入项目依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <versi...

文章 2023-08-04 来自：开发者社区

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

2.3.1.4 groupBy()分组1、用法：groupBy(f) ,以元素为粒度对每个元素执行函数f。2、函数f：（1）函数f为用户自定义实现内容，返回值任意（2）函数返回值为算子groupBy返回值的key，元素为value。（3）算子groupBy的返回值为新的重新分区的K—V类型RDD3、功能说明：分组，按照传入函数的返回值进行分组。将相同的key对应的值放入一个迭代器。4、案例说明....

文章 2023-08-04 来自：开发者社区

Spark学习---2、SparkCore（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

1、RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫弹性分布式数据集，是Spark中对于分布式数据集的抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD五大特性1、一组分区，即是数据集的基本组成单位，标记数据是哪个分区的2、一个计算每个分区的函数3、RDD之间的依赖关系4、一个Partitio....

文章 2022-11-09 来自：开发者社区

【Spark】【RDD】初次学习RDD 笔记汇总 (2)

键值对RDDmapValuesval rdd = sc.parallelize(List("a","b","c","d")) //通过map创建键值对 var rddp = rdd.map(x=>(x,1)) rddp.collect rddp.keys.collect rddp.values.collect //通过mapValues让所有Value值加一 rddp.mapValues(....

文章 2022-11-09 来自：开发者社区

【Spark】【RDD】初次学习RDD 笔记汇总 (1)

RDDAuthor:萌狼蓝天【哔哩哔哩】萌狼蓝天【博客】https://mllt.cc【博客园】萌狼蓝天 - 博客园【微信公众号】mllt9920【学习交流QQ群】238948804目录RDD特点创建从内存中创建RDD从外部存储创建RDD1.创建本地文件2.启动spark-shell3.从本地文件系统中读取从HDFS创建RDD1.在HDFS根目录下创建目录（姓名学号）2.上传本地文件到HDFS3....