文章 2025-03-20 来自:开发者社区

万字长文带你深入广告场景Paimon+Flink全链路探索与实践

作者介绍:黄超傑,蚂蚁数据智能部实时数据团队数据研发工程师,致力于数据湖技术在蚂蚁落地应用、蚂蚁广告实时数仓建设、蚂蚁数据成本治理等工作。 在开始之前 如果: 你想要提升数据时效,能够接受分钟级延迟 你好奇准实时相较离线、实时数据研发究竟能节约多少成本?...

万字长文带你深入广告场景Paimon+Flink全链路探索与实践
阿里云文档 2025-01-08

Paimon表迁移至DLF 2.0

本文介绍如何通过Flink部署JAR作业将DLF 1.0 Paimon表迁移至DLF 2.0。

阿里云文档 2024-12-10

Paimon系统表

Paimon系统表用于存储Paimon表的元数据和特定的数据消费行为。本文为您介绍Paimon元数据系统表和特定消费行为的有关系统表作用,相关的字段及含义等。

阿里云文档 2024-10-14

实时计算Flink和Paimon实现流批一体

本文演示了使用实时计算Flink版和EMR Serverless Spark构建Paimon数据湖分析流程。该流程包括将数据写入OSS、进行交互式查询以及执行离线数据Compact操作。EMR Serverless Spark完全兼容Paimon,通过内置的DLF元数据与其他云产品(例如,实时计算Flink版)实现元数据互通,形成完整的流批一体化解决方案。它支持灵活的任务运行方式和参数配置,满足实...

阿里云文档 2024-09-12

Paimon数据管理配置

为了确保在实时计算开发控制台中更加高效且灵活地管理和操作Paimon表(合并小文件、数据排序等特定任务等),您需要提前配置相关工具包。本文为您介绍如何在实时计算开发控制台中完成这一配置过程,助力您更轻松管理Paimon表数据。

问答 2024-08-25 来自:开发者社区

DataWorks数据同步,什么时候支持写paimon呀,毕竟你们也有flink-cdc的?

DataWorks数据同步,什么时候支持写paimon呀,毕竟你们也有flink-cdc的?

阿里云文档 2024-05-16

Paimon主键表和Append Scalable表优化

本文为您介绍不同场景下Paimon主键表和Append Scalable表的常用优化。

文章 2024-01-22 来自:开发者社区

Paimon 实践 | 基于 Flink SQL 和 Paimon 构建流式湖仓新方案

01数据分析架构演进目前,数据分析架构正在从Hive到Lakehouse的演变。传统数仓包括Hive、Hadoop正在往湖、Lakehouse 架构上演进,Lakehouse 架构包括Presto、Spark、OSS,湖格式 (Delta、Hudi、Iceberg) 等等架构,这是现在比较大的趋势。Lakehouse 架构包含了诸多新能力。首先OSS比起传统的HDFS有了更加弹性、更加计算存储分....

Paimon 实践 | 基于 Flink SQL 和 Paimon 构建流式湖仓新方案
文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(三)Flink进阶使用

2.9 进阶使用2.9.1 写入性能Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量:增加检查点间隔,或者仅使用批处理模式。增加写入缓冲区大小。启用写缓冲区溢出。如果您使用固定存储桶模式,请重新调整存储桶数量。2.9.1.1 并行度建议sink的并行度小于等于bucket的数量,最好相等。选项必需的默认类型描述sink.parallelismNo(none)Integer定义si....

流数据湖平台Apache Paimon(三)Flink进阶使用
文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(二)集成 Flink 引擎

第2章 集成 Flink 引擎Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。2.1 环境准备环境准备2.1.1 安装 Flink1)上传并解压Flink安装包tar -zxvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/module/2)配置环境变量sudo vim /etc/profil....

流数据湖平台Apache Paimon(二)集成 Flink 引擎

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

+关注