文章 2024-09-14 来自:开发者社区

Apache Spark Streaming技术深度解析

1. 简介 Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。 2. 主要特点 实时数据...

文章 2022-04-02 来自:开发者社区

Spark技术内幕:Worker源码与架构解析

首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位: Worker所起的作用有以下几个: 1. 接受Master的指令,启动或者杀掉Executor 2. 接受Master的指令,启动或者杀掉Driver 3. 报告Executor/Driver的状态到Master 4. 心跳到Master,心跳超时则Master认为Worker已经挂了不能工作了 5. 向GUI报告W.....

文章 2022-04-02 来自:开发者社区

Spark技术内幕:Sort Based Shuffle实现解析

在Spark 1.2.0中,Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle,即spark.shuffle.manager 从hash换成了sort,对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.so....

文章 2022-04-02 来自:开发者社区

Spark技术内幕: Task向Executor提交的源码解析

在上文《Spark技术内幕:Stage划分及提交源码分析》中,我们分析了Stage的生成和提交。但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑,即需要按照顺序计算的Stage,Stage中包含了可以以partition为单位并行计算的Task。我们并没有分析Stage中得Task是如何生成并且最终提交到Executor中去的。 这就是本文的主题。 从o....

文章 2022-02-17 来自:开发者社区

9.24直播预告|DLA Serverless Spark技术解析-让您的Spark弹起来

相约周四(9月24号)下午4点哦~ 本期直播主题:DLA Serverless Spark技术解析-让您的Spark弹起来 直播时间:9月24号(周四)16:00-17:00 直播讲师:明朔|阿里云-数据库产品事业部-Data Lake Analytics专注大数据分布式计算数据库数据湖领域,9年分布式开发经验,先后从事Aliyun自研大数据引擎、大数据平台的研发工作以及对Hadoop、...

9.24直播预告|DLA Serverless Spark技术解析-让您的Spark弹起来

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注