阿里云文档 2024-09-09

Apache Log4j 0Day安全漏洞公告说明

近日,阿里云计算有限公司发现阿帕奇Log4j2组件存在远程代码执行漏洞,并将漏洞情况告知阿帕奇软件基金会。本文为您介绍该漏洞的影响范围及相应的客户侧和云服务侧的安全建议。

文章 2024-03-12 来自:开发者社区

Apache Hudi与Apache Flink更好地集成,最新方案了解下?

1. 现有架构 现有Flink写Hudi架构如下 现有的架构存在如下瓶颈 •InstantGeneratorOperator并发度为1,将限制高吞吐的消费,因为所有的split都将会打到一个线程内,网络IO会...

Apache Hudi与Apache Flink更好地集成,最新方案了解下?
文章 2024-03-12 来自:开发者社区

Apache Flink 1.12.2集成Hudi 0.9.0运行指南

1. 准备工作 1. 编译包下载 •下载Flink 1.12.2包:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz•Hudi编译:https://github.com/apache/hudi•git clone https://github...

Apache Flink 1.12.2集成Hudi 0.9.0运行指南
文章 2024-01-22 来自:开发者社区

Apache Flink 和 Paimon 在自如数据集成场景中的使用

业务背景自如目前线上有基于 Hive 的离线数仓和基于 Flink、Kafka 的实时数仓,随着业务发展,我们也在探索引入湖仓一体的架构更好的支持业务,我们对比了 Iceberg、Hudi、Paimon 后,最终选择 Paimon 作为我们湖仓一体的存储引擎,本文分享下自如在引入 Paimon 做数据集成的一些探索实践。一、原始接入自如目前使用的业务库入 hive 的简略逻辑图如下(拿 Mysq....

Apache Flink 和 Paimon 在自如数据集成场景中的使用
文章 2024-01-08 来自:开发者社区

Apache Flink 和 Paimon 在自如数据集成场景中的使用

业务背景 自如目前线上有基于 Hive 的离线数仓和基于 Flink、Kafka 的实时数仓,随着业务发展,我们也在探索引入湖仓一体的架构更好的支持业务,我们对比了 Iceberg、Hudi、Paimon 后,最终选择 Paimon 作为我们湖仓一体的存储引擎,本文分享下自如在引入 Paimon 做数据集成的一些探索实践。 一...

Apache Flink 和 Paimon 在自如数据集成场景中的使用
文章 2023-10-23 来自:开发者社区

Dinky是一个基于Apache Flink的数据集成工具

Dinky是一个基于Apache Flink的数据集成工具,它可以帮助你将数据从源系统移动到目标系统。然而,Dinky本身并不直接支持Flink SQL Sink,因为它主要关注的是数据的抽取和转换,而不是数据的写入。 如果你想要使用Dinky将数据写入到Flink SQL中,你可能需要使用Dinky的"toFlink...

文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1)

作者:李辉用户背景 伴鱼是一个创新驱动的互联网+教育公司,也是一个基于互联网的在线学习平台,致力于打造一个自适应学习 Adaptive Learning + 社会化学习 Social Learning 的完整语言学习环境。 业务需求目前伴鱼内部数据的集成需求主要体现在三块:Stat Log (业务标准化日志或称统计日志)、TiDB 及 MongoDB。另外,由于实时数仓正处于建设过程中,目前数据....

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(2)

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1) https://developer.aliyun.com/article/1228434用户提交集成任务后将同步创建三个任务:  增量任务 (流):增量任务将 DB 日志数据由 Kafka 同步至 Hive。由于采集组件都是按照集群粒度进行采集,且集群数....

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(2)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(3)

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(2) https://developer.aliyun.com/article/12284312. Merge任务  Merge 任务的前提是存量数据与增量数据都已经 ready,通过 _SUCCESS 文件进行标记。整个Merge 任务的工作流如下图所示: ....

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(3)
文章 2022-05-06 来自:开发者社区

Apache Hudi与Apache Flink集成

Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。1. 为何要解耦Hudi自诞生至今一直使用Spark作为其数据处理引擎。如果用户想使用Hudi作为其数据湖框架,就必须在其平台技术栈中引入Spark。放在几年前,使用Spark作为大数据处理引擎可以说是很平常甚至是理....

Apache Hudi与Apache Flink集成

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等