文章 2024-03-12 来自:开发者社区

Apache Hudi在Linkflow构建实时数据湖的生产实践

1. 背景 Linkflow 作为客户数据平台(CDP),为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点(SDK)和三方数据源,如微信,微博等,收集大量的数据。这些数据都会经过清洗,计算,整合后写入存储。使用者可以通过灵活的报表或标签对持久化的数据进行分析和计算,结果又会作为MA (Marketing Automation) 系统的数据源,从而实现对特定人群...

Apache Hudi在Linkflow构建实时数据湖的生产实践
文章 2024-03-12 来自:开发者社区

快手基于Apache Hudi的实践

分享一篇Apache Hudi在快手的实践,如何使用Apache Hudi解决效率问题 分享者为靳国卫,快手大数据研发专家,负责用户增长数据团队 ...

快手基于Apache Hudi的实践
文章 2024-03-12 来自:开发者社区

字节跳动基于Apache Hudi构建EB级数据湖实践

接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 ...

字节跳动基于Apache Hudi构建EB级数据湖实践
文章 2024-03-12 来自:开发者社区

字节跳动基于Apache Hudi构建实时数据湖平台实践

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台的分享。 ...

字节跳动基于Apache Hudi构建实时数据湖平台实践
文章 2024-03-12 来自:开发者社区

OnZoom基于Apache Hudi的流批一体架构实践

1. 背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表演,以及Zoom会议平台上的音乐课程。 ...

OnZoom基于Apache Hudi的流批一体架构实践
文章 2024-03-12 来自:开发者社区

KLOOK客路旅行基于Apache Hudi的数据湖实践

1. 业务背景介绍 客路旅行(KLOOK)是一家专注于境外目的地旅游资源整合的在线旅行平台,提供景点门票、一日游、特色体验、当地交通与美食预订服务。覆盖全球100个国家及地区,支持12种语言和41种货币的支付系统,与超过10000家商户合作伙伴紧密合作,为全球旅行者提供10万多种旅行体验预订服务。KLOOK数仓RDS数据同步是一个很典型的互联网电商公司数仓接入层的需求。对于公司数仓,约6...

KLOOK客路旅行基于Apache Hudi的数据湖实践
文章 2024-03-07 来自:开发者社区

Apache Hudi 流转批 场景实践

背景 在某些业务场景下,我们需要一个标志来衡量hudi数据写入的进度,比如:Flink 实时向 Hudi 表写入数据,然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL,这也就是我们通常说的流转批。 EventTime计算原理 ...

Apache Hudi 流转批 场景实践
文章 2024-03-07 来自:开发者社区

Zoom 基于Apache Hudi 的流式日志处理实践

在当今的数字时代,日志记录是应用程序开发和管理的一个重要方面,但在遵守数据保护法规的同时有效管理日志可能是一项重大挑战。Zoom 与 AWS 数据实验室团队合作,开发了一种创新架构来克服这些挑战并简化日志记录和记录删除流程。在本文中我们探讨了架构及其为 Zoom 及其用户提供的优势。 应用程序日志挑战:数据管理和合规性 应用程序日志是任何应用程序的重要组成部分;它们提供有关系统的...

Zoom 基于Apache Hudi 的流式日志处理实践
文章 2024-03-07 来自:开发者社区

万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践

文章贡献者 Authors • 技术指导: 泰康人寿 数据架构资深专家工程师 王可 • 文章作者: 泰康人寿 数据研发工程师 田昕峣 摘要 Abstract 本文详细介绍了泰康人寿基于 Apache Hudi 构建湖仓一体分布式数据处理平台的技术选型方法、整体架构设计与实施、以及针对大健康领域的领域特征和公司战略对 Apache Hudi 进行的功能扩展与实施的详...

万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
文章 2024-03-07 来自:开发者社区

Apache Hudi在信息服务行业构建流批一体的实践

个人介绍 李昂 高级数据研发工程师 Apache Doris & Hudi Contributor 业务背景 部门成立早期, 为了应对业务的快速增长, 数仓架构采用了最直接的Lambda架构 1. 对数据新鲜度要求不高的数据, 采用离线数仓做维度建模, 采用每小时调度binlog+每日主键归并的方式实现T+1数据更新 2. 对数据时效性要...

Apache Hudi在信息服务行业构建流批一体的实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像