阿里云文档 2024-12-06

通过Apache Airflow向EMR Severless Spark提交任务

Apache Airflow是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow实现自动化地向EMR Serverless Spark提交任务,以实现作业调度和执行的自动化,帮助您更有效地管理数据处理任务。

阿里云文档 2022-08-22

问题描述Dataphin执行Spark脚本任务,报错“org.apache.spark.sql.AnalysisException: Table or view not found: ...”。解决方案Dataphin的Spark脚本任务,不会对用户的代码进行翻译;需要在任务中直接使用计算源项目名称...

问答 2020-05-19 来自:开发者社区

Apache Flink与Apache Spark可以作为大规模机器学习的平台吗?

Apache Flink与Apache Spark可以作为大规模机器学习的平台吗? 谁能将Flink和Spark作为机器学习的平台进行比较?哪种算法对迭代算法更好?

问答 2018-06-30 来自:开发者社区

"基于 Apache* Spark* 的大规模 分布式机器学习实践"

"作为年度科技盛会,以“飞天•进化 Apsara Evolution”为主题的2016年云栖大会在杭州云栖小镇隆重召开。全球数万多名IT从业人员奔赴现场,共同描绘云计算发展趋势和蓝图,展现云计算、大数据、人工智能蓬勃发展的生态全景。 在云栖大会期间,Zhichao Li,Senior Software Development Engineer, Intel Corporation分享了Spark....

文章 2017-11-08 来自:开发者社区

Apache Flink vs Apache Spark——感觉二者是互相抄袭啊 看谁的好就抄过来 Flink支持在runtime中的有环数据流,这样表示机器学习算法更有效而且更有效率

Apache Flink是什么   Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错,Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用。所以,Flink和Spark的目 标差别并不大,他们最主要的区别在于实现的细节,后面我会重点从不同的角度对比这两者。 A....

问答 2017-06-23 来自:开发者社区

【教程免费下载】Apache Spark机器学习

前  言 作为数据科学家和机器学习专业人员,我们的工作是建立模型进行欺诈检测、预测客户流失,或者在广泛的领域将数据转换为洞见。为此,我们有时需要处理大量的数据和复杂的计算。因此,我们一直对新的计算工具满怀期待,例如Spark,我们花费了很多时间来学习新工具。有很多可用的资料来学习这些新的工具,但这些资料大多都由计算机科学家编写,更多的是从计算角度来描述。 作为Spark用户,数据科学家和机器...

文章 2017-05-02 来自:开发者社区

《 Apache Spark机器学习.》导读

本节书摘来自华章出版社《 Apache Spark机器学习.》一书中作者[美] 刘永川(Alex Liu) 著 闫龙川 高德荃 李君婷 译 更多章节内容可以访问云栖社区“华章计算机”公众号查看。  前  言 作为数据科学家和机器学习专业人员,我们的工作是建立模型进行欺诈检测、预测客户流失,或者在广泛的领域将数据转换为洞见。为此,我们有时需要处理大量的数据和复杂的计算。因此,我们一直对新的...

文章 2017-05-02 来自:开发者社区

Apache Spark机器学习3.8 小结

3.8 小结 本章,我们一步一步实现了从数据到商业的整体视图,通过这个过程我们在Spark上处理了大量的数据,并且为IFS公司建立了一个生成销售团队成功的整体视图的模型。 具体来讲,首先我们在准备好Spark计算环境和载入预处理数据之后,为每个商业需求选择了模型。第二,我们准备并约减了特征。第三,估计模型系数。第四,评估了估计模型。接着,我们解释了分析结果。最后,部署了估计得到的模型。 这一处.....

文章 2017-05-02 来自:开发者社区

Apache Spark机器学习3.6 结果解释

3.6 结果解释 通过了模型评估,并决定选择估计模型作为最终模型之后,我们需要向公司执行团队和技术团队解释执行结果。 接下来,我们将讨论一些经常使用的结果解释方法,使用图表来表达影响评估。 一些用户喜欢使用ROI的形式解释我们的结果,这就需要成本和效益的数据。当我们拥有成本和效益数据时,结果可以很方便地覆盖ROI主题。当然,需要一些优化才可以应用到实际决策中。 影响的评估 正如在Spark整体.....

文章 2017-05-02 来自:开发者社区

Apache Spark机器学习3.3 特征准备

3.3 特征准备 在前面几节,我们选择了模型并且准备了监督学习所需的因变量。本节,我们需要准备自变量,他们是影响因变量因素(销售团队的成功)的所有特征。对于这项重要的工作,我们需要将400多个特征约减为合理的一组特征,以适应最终的建模需要。为此,我们使用PCA方法,利用专业知识,然后执行特征选择任务。 3.3.1 PCA PCA是非常成熟且经常使用的特征约减方法,经常用来寻找一个小的变量集合以.....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注