文章 2024-06-12 来自:开发者社区

Spark 优化方案

Spark 优化方案 Apache Spark 是一个快速、通用、可扩展的分布式计算引擎,Spark 的使用在大规模数据处理中变得越来越普遍。然而,在处理大数据集时,Spark 的性能可能受到影响。本文将探讨一些 Spark 优化方案,以提高 Spark 在处理大数据集时的性能。 1. 数据分区 在 Spark 中,数据被分为多个分区进行并行处理。分区的大小直接影响 Sp...

问答 2024-05-14 来自:开发者社区

大数据spark和 深度学习的推荐方案是什么?

大数据spark和 深度学习的推荐方案是什么?

文章 2023-10-09 来自:开发者社区

大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案

前言大家好,我是明哥!作为当今离线批处理模式的扛把子,SPARK 在绝大多数公司的数据处理平台中都是不可或缺的。而在底层使用的具体资源管理器上,SPARK 支持四种模式:standaloneyarnmesoskubernetes四种模式的简单对比如下图:以上四种模式中,mesos 在业界使用的最少,其次是 standalone 模式,再次是 yarn 模式。不过随着大数据与云计算日益融合的趋势,....

大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
文章 2022-12-23 来自:开发者社区

重磅解读:基于Occlum和BigDL构建端到端的安全分布式Spark大数据分析方案

如何在AI和大数据应用中保护数据的安全和隐私是一个现实挑战。本文介绍了基于英特尔SGX的隐私保护机器学习方案。方案应用了蚂蚁集团发起的开源TEE操作系统Occlum,英特尔开源的BigDL PPML,支持端到端的安全分布式大数据分析(例如Spark)和AI应用。该方案已上线到Occlum 1.0 版本中(历时四年打磨,可信执行环境开源操作系统Occlum v1.0正式发布!)作为示例,文章展示了....

重磅解读:基于Occlum和BigDL构建端到端的安全分布式Spark大数据分析方案
文章 2022-06-13 来自:开发者社区

Spark Doris Connector设计方案

Spark Doris Connector 是Doris在0.12版本中推出的新功能。用户可以使用该功能,直接通过Spark对Doris中存储的数据进行读写,支持SQL、Dataframe、RDD等方式。从Doris角度看,将其数据引入Spark,可以使用Spark一系列丰富的生态产品,拓宽了产品的想象力,也使得Doris和其他数据源的联合查询成为可能1.技术选型在早期的方案中,我们直接将Dor....

Spark Doris Connector设计方案
文章 2021-08-18 来自:开发者社区

基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案

Spark SQL 作为 Spark 用来处理结构化数据的一个基本模块,已经成为多数企业构建大数据应用的重要选择。但是,在大规模连接(Join)、聚合(Aggregate)等工作负载下,Spark 性能会面临稳定性和性能方面的挑战。为了提升 Spark SQL 的性能,用户可以选择使用英特尔® 优化分析包(Optimized Analytics Package,OAP)以及英特尔® 傲腾™ 持久....

基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案
问答 2020-06-06 来自:开发者社区

Spark,一种快速数据分析替代方案:报错

虽然 Hadoop 在分布式数据分析方面备受关注,但是仍有一些替代产品提供了优于典型 Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现的,并且利用了该语言,为数据处理提供了独一无二的环境。了解 Spark 的集群计算方法以及它与 Hadoo....

文章 2019-12-02 来自:开发者社区

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

议题: 是时候改变你数仓的增量同步方案了 直播间直达(回看)链接: https://tianchi.aliyun.com/course/live?&liveId=41124 简介: 本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和....

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】
问答 2019-10-28 来自:开发者社区

对于Spark中的数据倾斜问题你有什么好的方案?

对于Spark中的数据倾斜问题你有什么好的方案?

问答 2019-05-05 来自:开发者社区

spark 与 tensorflow 结合有没有方案?

spark 与 tensorflow 结合有没有方案?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注