云原生大数据计算服务 MaxCompute shuffle原理实践的相关内容

阿里云文档 2025-02-25

Node Labels调度实践

Node Labels是YARN提供的节点分区功能，使得YARN在调度时能够在物理层面上对不同类型的作业进行有效隔离。本文为您介绍如何根据您的业务类型和节点类型创建相应的Node Labels。

阿里云文档 2025-01-24

基于Delta Table构建近实时增全量一体化链路实践

面对当前日益复杂且对数据时效性要求极高的近实时业务场景，MaxCompute基于Delta Table推出了集大规模存储、高效批量处理和近实时能力于一体的近实时增量一体化架构。本文为您介绍该架构的工作原理及其优势。

阿里云文档 2025-01-20

MaxCompute+DLF+OSS湖仓一体的湖查询和湖数据入仓实践

MaxCompute、DLF和OSS是阿里云提供的一体化解决方案，可以实现数据湖查询和湖数据入仓。通过配置DLF，将数据从OSS导入到MaxCompute中，并使用MaxCompute进行数据湖查询。该方案可以方便地进行数据分析和处理，并保证数据的可靠性和安全性。

阿里云文档 2024-09-18

MaxCompute近实时数仓数据入仓介绍

为满足业务对数据仓库中高度时效性数据的需求，MaxCompute基于Delta Table实现了分钟级近实时数据写入和主键更新功能，显著提升了数据仓库的数据更新效率。

阿里云文档 2024-05-16

镜像管理场景实践

MaxCompute提供用户自定义函数（UDF）及Python（PyODPS和MaxFrame）开发能力，本文为您介绍如何在MaxCompute UDF、PyODPS及MaxFrame作业开发中使用镜像。

文章 2023-02-09 来自：开发者社区

六、【计算】大数据Shuffle原理与实践（下） | 青训营笔记

引言学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。热爱写作，愿意让自己成为更好的人............铭记于心✨我唯一知道的，便是我一无所知✨四、Push Shuffle0 概述为什么需要Push Shuffle，因为一般shuffle过程存在不可避免的问题：数据存储在本地磁盘，没有备份IO 并发：大量 RPC 请求（M*R）IO 吞吐：随机读、写放大（3....

文章 2023-02-05 来自：开发者社区

大数据 Shuffle 原理与实践｜青训营笔记

课程资料课程视频：https://live.juejin.cn/4354/yc_Shuffle课程PPT：https://bytedance.feishu.cn/file/boxcnQaV9uaxTp4xF0d1vEK5W3c学员手册：https://juejin.cn/post/7123908203590451207/#heading-46完整手册：https://bytedance.feis....

文章 2022-09-14 来自：开发者社区

大数据Shuffle原理与实践

Shuffle概述在开源实现的MapReduce中，存在Map、 Shuffle、 Reduce三个阶段。Shuffle过程是MapReduce的核心。 Map阶段：是在单机上进行的针对-一小块数据的计算过程。Shuffle阶段：在map阶段的基础，上，进行数据移动，为后续的reduce阶段做准备。reduce阶段：对移动后的数据进行处理，依然是在单机上处理一小份数据。为什么...