阿里云文档 2025-03-21

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-02-14

基于自建Hadoop集群进行自定义CDH镜像

本文为您介绍如何在DataWorks绑定自建 Hadoop 集群并进行任务开发,以及如何自定义自建集群运行环境。

阿里云文档 2025-01-23

与自建集群的对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和分析场景。

阿里云文档 2024-12-30

基于Hadoop集群支持Delta Lake或Hudi存储机制

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。

阿里云文档 2024-04-03

迁移Hadoop集群至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略与步骤。

文章 2023-12-22 来自:开发者社区

大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)

15.yarn 集群的架构和工作原理知道多少YARN 的基本设计思想是将 MapReduce V1 中的 JobTracker 拆分为两个独立的服务:ResourceManager 和 ApplicationMaster。ResourceManager 负责整个系统的资源管理和分配,ApplicationMaster 负责单个应用程序的的管理。1)ResourceManager:RM 是一个全局....

文章 2023-12-22 来自:开发者社区

大数据面试题百日更新_Hadoop专题(Day10)

12. 请说下 MR 中 shuffle 阶段13. shuffle 阶段的数据压缩机制了解吗

大数据面试题百日更新_Hadoop专题(Day10)
文章 2023-12-22 来自:开发者社区

大数据面试题百日更新_Hadoop专题(Day09)

10. 请说下 MR 中 Map Task 的工作机制简单概述:inputFile 通过 split 被切割为多个 split 文件,通过 Record 按行读取内容给map(自己写的处理逻辑的方法),数据被 map 处理完之后交给 OutputCollect 收集器,对其结果 key 进行分区(默认使用的 hashPartitioner),然后写入 buffer,每个 map task 都有一....

文章 2023-12-22 来自:开发者社区

大数据面试题百日更新_Hadoop专题(Day08)

请说下 HDFS 的组织架构

大数据面试题百日更新_Hadoop专题(Day08)
文章 2023-12-22 来自:开发者社区

大数据面试题百日更新_Hadoop专题(Day06)

大数据面试题百日更新_Hadoop专题(Day06)在 NameNode HA 中,会出现脑裂问题吗?怎么解决脑裂

大数据面试题百日更新_Hadoop专题(Day06)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注