阿里云文档 2024-12-06

通过Apache Airflow向EMR Severless Spark提交任务

Apache Airflow是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow实现自动化地向EMR Serverless Spark提交任务,以实现作业调度和执行的自动化,帮助您更有效地管理数据处理任务。

文章 2024-08-16 来自:开发者社区

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有....

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
阿里云文档 2024-05-06

Apache Hadoop FileUtil.unTar命令注入漏洞

2022年8月4日,Apache Hadoop官方披露修复了一个Shell命令注入漏洞CVE-2022-25168。由于Apache Hadoop的FileUtil.unTar API在传递Shell之前未对输入的文件名进行转义,攻击者可以利用该漏洞注入任意命令,从而对集群造成破坏。

阿里云文档 2024-05-06

如何修复Apache Log4j2远程代码执行漏洞

近日,阿里云计算有限公司发现Apache Log4j2组件存在远程代码执行漏洞,并将漏洞情况告知Apache软件基金会。本文为您介绍该漏洞的影响范围及相应的修复方案。

阿里云文档 2024-03-22

Apache Kafka Connect远程代码执行漏洞

2023年02月08日,Apache发布了一则安全公告,修复了Apache Kafka中存在的一个反序列化漏洞,漏洞编号为CVE-2023-25194。在攻击者可以控制Apache Kafka Connect客户端的情况下,通过SASL JAAS配置和基于SASL的安全协议,在其上创建或修改连接器,从而触发JNDI代码执行漏洞。

文章 2024-03-12 来自:开发者社区

使用Amazon EMR和Apache Hudi在S3上插入,更新,删除数据

将数据存储在Amazon S3中可带来很多好处,包括规模、可靠性、成本效率等方面。最重要的是,你可以利用Amazon EMR中的Apache Spark,Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍然非常具有挑战。 与客户交谈时,我们发现有些场景需要处理对单条记录的增量更新,例如: ...

使用Amazon EMR和Apache Hudi在S3上插入,更新,删除数据
阿里云文档 2023-11-03

如何使用ApacheHDFS透明缓存加速_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

Apache HDFS透明缓存加速可以利用计算集群的闲置存储资源对远端HDFS集群进行数据缓存,避免了计算集群或服务占用核心集群过多带宽。当HDFS集群和计算集群分离,HDFS集群访问性能不及预期时,您可以通过在计算集群或靠近计算集群的地方缓存数据来进行加速。

文章 2023-07-06 来自:开发者社区

EMR Workflow 开启公测,100%兼容开源 Apache DolphinScheduler

产品介绍EMR Workflow 产品简介EMR Workflow 是一个全托管的工作流和任务调度服务,100%兼容开源 Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR Workflow 产品优势即开即用,免部署、免运维。基于阿里云基础设施提供稳定可靠的云原生S....

EMR Workflow 开启公测,100%兼容开源 Apache DolphinScheduler
文章 2023-03-01 来自:开发者社区

阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

摘要:本文整理自阿里云 EMR 数据开发团队负责人孙一凡(Evans 忆梵),在 Spark&DS Meetup 的分享。本篇内容主要分为四个部分:我们是谁为什么选择 DolphinScheduler社区贡献商业化实践点击查看直播回放一、我们是谁我们团队的日常工作主要包含以下两部分内容。 第一,深度参与和贡献大数据开发开源项目。在过去两年的时间里,我们参与了很多开源项目。比如在交互式数据....

阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等