OnZoom基于Apache Hudi的流批一体架构实践
1. 背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表演,以及Zoom会议平台上的音乐课程。 ...

Apache Hudi在信息服务行业构建流批一体的实践
个人介绍 李昂 高级数据研发工程师 Apache Doris & Hudi Contributor 业务背景 部门成立早期, 为了应对业务的快速增长, 数仓架构采用了最直接的Lambda架构 1. 对数据新鲜度要求不高的数据, 采用离线数仓做维度建模, 采用每小时调度binlog+每日主键归并的方式实现T+1数据更新 2. 对数据时效性要...

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践
作者:金风 用户背景 小米科技有限责任公司成立于2010年3月3日,是一家专注于智能硬件和电子产品研发的全球化移动互联网企业,同时也是一家专注于智能手机、互联网电视及智能家居生态链建设的创新型科技企业。 小米公司创造了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。 业务需求小米的大数据发展演变史大概如下: 2019 年之前,小米的实时计算主要以 SparkStreamin....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(2)
《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(1) https://developer.aliyun.com/article/12284723、作业调度 小米在作业调度方面也做了一些尝试。如上图左边这段 SQL,在离线调度模式下它是一个批作业,但在实时调度下它就是一个流作业。在批流混合的调度下,会先启动批作业,执行完成之后再启动流作....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(3)
《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(2) https://developer.aliyun.com/article/12284702. 实时数据集成 主要分为两个部分: 第一部分是实时数据的收集,小米内部主要分为两大类, 分别是日志数据和 DB 的 Binlog 数据。这里主要介绍 DB 系统的 B....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(3)
2. 实时数据集成 主要分为两个部分: 第一部分是实时数据的收集,小米内部主要分为两大类, 分别是日志数据和 DB 的 Binlog 数据。这里主要介绍 DB 系统的 Binlog 数据收集。最初小米使用自研的 LCS Binlog 服务来进行统一的 Binlog 收集,类似于 Canal 服务,通过该服务将 Binlog 的数据统一收集到消息队列中。 第二部....

尘锋信息基于 Apache Paimon 的流批一体湖仓实践
尘锋信息基于 Apache Paimon 构建流批一体湖仓,主要分享:整库入湖,TB 级数据近实时入湖基于 Flink + Paimon 的数仓 批 ETL 建设基于 Flink + Paimon 的数仓 流 ETL 建设数仓 OLAP 与数据地图点击进入 Apache Paimon 官网一、尘锋信息介绍尘锋信息 (www.dustess.com) 是基于企业微信生态的一站式私域运营管理解决方案....

OnZoom 基于Apache Hudi的流批一体架构实践
1. 背景OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表演,以及Zoom会议平台上的音乐课程。在OnZoom data platform中,source数据主要分为MySQL DB数据和Log数据。 ....

触宝科技基于Apache Hudi的流批一体架构实践
1. 前言当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。2. 模型特征架构的演进2.1 第一代架构广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计、特征推送和特征获取模型训练....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
Apache实践相关内容
- Apache湖仓一体实践
- Apache湖仓实践
- 小米Apache paimon流式实践
- Apache paimon湖仓实践
- Apache流式实践
- Apache paimon实践
- elasticsearch Apache实践
- Apache构建lakehouse实践
- Apache lakehouse实践
- Apache streaming实践
- Apache构建实践
- Apache集群实践
- Apache meetup实践
- 科技Apache实践
- 阿里云Apache实践
- Apache iotdb iot实践
- 实践Apache
- 阿里云selectdb内核Apache实践
- 内核Apache doris实践
- selectdb Apache实践
- Apache实践应用
- 离线Apache实践
- Apache场景实践
- 查询内核Apache实践
- Apache构建数据湖实践
- Apache生产实践
- Apache hudi实践
- Apache hudi构建实践
- 快手Apache实践
- 字节跳动Apache实践
Apache更多实践相关
Apache您可能感兴趣
- Apache meetup
- Apache阿里云
- Apache doris
- Apache日志
- Apache技术
- Apache数据库
- Apache php7.1
- Apache php
- Apache编译
- Apache php版本
- Apache flink
- Apache配置
- Apache rocketmq
- Apache安装
- Apache dubbo
- Apache tomcat
- Apache服务器
- Apache linux
- Apache spark
- Apache开发
- Apache服务
- Apache报错
- Apache mysql
- Apache微服务
- Apache访问
- Apache kafka
- Apache从入门到精通
- Apache hudi
- Apache应用
- Apache web
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
+关注