备案控制台

实战apache spark hudi 的相关内容

文章 2024-03-12 来自：开发者社区

实战|使用Spark Streaming写入Hudi

1. 项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战： ...

实战|使用Spark Streaming写入Hudi

文章 2022-05-06 来自：开发者社区

实战|使用Spark Structured Streaming写入Hudi

1. 项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战：小文件问题。不论是spark的micro....

实战|使用Spark Structured Streaming写入Hudi

共有2条

< 1 >

跳转至： GO

更新时间 2024-03-13 13:18:15

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

apache spark实战相关内容

apache spark您可能感兴趣

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区，定期推送精彩案例，问答区数个 Spark 技术同学每日在线答疑，只为营造 Spark 技术交流氛围，欢迎加入！