文章 2024-10-14 来自:开发者社区

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完) HDFS(已更完) MapReduce(已更完) Hive(已更完) Flume(已更完) Sqoop(已更完) Zookeeper(已更完) HBase(已更完) Redis (已更完) Kafka(已更完) ...

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
阿里云文档 2024-05-11

使用Spark RDD API开发离线作业

本文介绍Spark如何访问SLS。

阿里云文档 2023-09-03

如何在使用SparkShell和RDD(新)_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

本文为您介绍如何使用Spark Shell,以及RDD的基础操作。

文章 2023-08-04 来自:开发者社区

Spark学习--4、键值对RDD数据分区、累加器、广播变量、SparkCore实战(Top10热门品类)

一、键值对RDD数据分区Spark目前支持Hash分区、Range分区和用户自定义分区。Hash分区为当前默认的分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区和Reduce的个数。1、注意:(1)只有Key-Value类型的RDD才有分区器,非Key-Value类型的RDD分区器的值是None。(2)每个RDD的分区ID范围:0~(numPartiti....

Spark学习--4、键值对RDD数据分区、累加器、广播变量、SparkCore实战(Top10热门品类)
文章 2022-06-20 来自:开发者社区

Spark RDD高级应用(传参、闭包、共享变量)

0x00 教程内容向Spark传递参数的两种方式闭包的概念及实操共享变量的两种方式0x01 向Spark传递参数的方式Spark 中的大部分操作都依赖于用户传递的函数,主要有两种方式:方式一:匿名函数方式二:传入静态方法和传入方法的引用1. 匿名函数在前面的教程中,我们用到了很多次这种方式,如这句:val wordRDD = textFileRDD.flatMap(line => line....

Spark RDD高级应用(传参、闭包、共享变量)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注