阿里云文档 2025-03-04

Dataflow集群如何连接DLF,并读取Hudi全量数据

DataFlow集群可以通过数据湖构建(DLF)的统一元数据服务,访问DataLake集群或自定义集群中的Hudi表数据。本文为您介绍DataFlow集群如何连接DLF并读取Hudi全量数据。

文章 2024-03-07 来自:开发者社区

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根于 Hadoop 生态系统,解释了名称背后的含义:Hadoop Upserts Deletes a....

基于Apache Hudi + MinIO 构建流式数据湖
文章 2022-05-07 来自:开发者社区

Apache Hudi 0.9.0版本重磅发布!更强大的流式数据湖平台

1. 重点特性1.1 Spark SQL支持0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABLE .. AS SELECT 语句直接在 Hive 等目录中创建和管理表。 然后用户可以使用 INSE....

文章 2022-02-16 来自:开发者社区

使用 Flink Hudi 构建流式数据湖平台

摘要:本文整理自阿里巴巴技术专家陈玉兆 (玉兆)、阿里巴巴开发工程师刘大龙 (风离) 在 Flink Forward Asia 2021 的分享。主要内容包括:Apache Hudi 101Flink Hudi IntegrationFlink Hudi Use CaseApache Hudi RoadmapFFA 2021 直播回放 & 演讲 PDF 下载一、Apache Hudi 1....

使用 Flink Hudi 构建流式数据湖平台
文章 2021-08-26 来自:开发者社区

使用 Flink Hudi 构建流式数据湖

本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以通过 Flink SQL 将 CDC 数据实时写入 Hudi 存储,且在即将发布的 0.9 版本 Hudi 原生支持 CDC format。主要内容为:背景增量 ETL演示GitHub 地址 https://github.com/apache/flink欢迎大家给 Flink 点赞送....

使用 Flink Hudi 构建流式数据湖

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等