apache spark计算分析-阿里云

阿里云文档 2025-06-20

用户画像分析案例同步数据-基于新版数据开发和Spark计算资源

本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据，配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中，并通过创建Spark外表解析OSS中存储的数据。通过查询验证数据同步结果，确认是否完成整个数据同步操作。

阿里云文档 2025-06-10

DataWorks中EMR Serverless Spark版本的用户画像分析的加工数据阶段

本文为您介绍如何用Spark SQL创建外部用户信息表ods_user_info_d_spark以及日志信息表ods_raw_log_d_spark访问存储在私有OSS中的用户与日志数据，通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据，阅读本文后，您可以了解如何通过Spark SQL来计算和分析已同步的数据，完成数仓简单数据加工场景。

阿里云文档 2025-05-14

用户画像分析案例加工数据-基于新版数据开发和Spark计算资源

本文为您介绍如何用Spark SQL创建外部用户信息表ods_user_info_d_spark以及日志信息表ods_raw_log_d_spark访问存储在私有OSS中的用户与日志数据，通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据，阅读本文后，您可以了解如何通过Spark SQL来计算和分析已同步的数据，完成数仓简单数据加工场景。

阿里云文档 2025-05-14

用户画像分析案例环境准备-基于新版数据开发和Spark计算资源

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境配置。

阿里云文档 2025-04-28

在TDX实例中基于BigDL PPML构建全链路安全的分布式Spark大数据分析应用

本文介绍在基于Intel® TDX安全特性的g8i实例中，使用BigDL PPML解决方案运行分布式的全链路安全的Spark大数据分析应用。

文章 2016-11-24 来自：开发者社区

Spark计算过程分析

基本概念 Spark是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark延续了Hadoop的MapReduce计算模型，相比之下Spark的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型，其特点是Map和Reduce过程高度可并行化.....

文章 2016-09-14 来自：开发者社区

Apache Spark源码走读（十）ShuffleMapTask计算结果的保存与读取 &WEB UI和Metrics初始化及数据更新过程分析

<一>ShuffleMapTask计算结果的保存与读取概要 ShuffleMapTask的计算结果保存在哪，随后Stage中的task又是如何知道从哪里去读取的呢，这个过程一直让我困惑不已。用比较通俗一点的说法来解释一下Shuffle数据的写入和读取过程每一个task负责处理一个特定的data partition task在初始化的时候就已经明确处理结果可能会产生多少个不同...