阿里云文档 2025-03-21

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-02-14

基于自建Hadoop集群进行自定义CDH镜像

本文为您介绍如何在DataWorks绑定自建 Hadoop 集群并进行任务开发,以及如何自定义自建集群运行环境。

阿里云文档 2025-01-23

与自建集群的对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和分析场景。

阿里云文档 2024-12-30

基于Hadoop集群支持Delta Lake或Hudi存储机制

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。

文章 2024-09-30 来自:开发者社区

两万字长文向你解密大数据组件 Hadoop

大数据介绍 大数据这个概念一直都是如火如荼,那什么是大数据呢?首先从名字来看,我们可以简单地认为数据量大,而数据量大也就意味着计算量大。这样理解本身是没有任何问题的,只不过这并不能很好地定义大数据。 而业界的一家权威机构,针对大数据做了描述,认为大数据应该具备如下特...

两万字长文向你解密大数据组件 Hadoop
阿里云文档 2024-04-03

迁移Hadoop集群至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略与步骤。

文章 2022-06-13 来自:开发者社区

大数据组件-Hadoop伪分布式部署

创建需要的文件夹进入安装包文件夹 mkdir /opt/jdk mkdir /opt/hadoop安装jdk解压缩jdk安装包 tar -zxvf jdk-8u144-linux-x64.tar.gz 移动文件夹jdk1.8.0_144到/opt/java下面,并改名为jdk1.8 mv jdk1.8.0_144/ /opt/jdk/jdk1.8 配置jdk的环境变量 vim /etc/prof....

大数据组件-Hadoop伪分布式部署
文章 2022-06-13 来自:开发者社区

大数据组件-Hadoop全分布式部署

 编辑‍博主介绍:大家好,我是芝士味的椒盐,一名在校大学生,热爱分享知识,很高兴在这里认识大家擅长领域:Java、大数据、运维、电子如果本文章各位小伙伴们有帮助的话,关注+点赞+评论+收藏,相应的有空了我也会回访,互助!!!另本人水平有限,旨在创作简单易懂的文章,在文章描述时如有错,恳请各位大佬指正,在此感谢!!! 集群规划编辑检查三台机器之间是否可以ping通这里的三台主机....

大数据组件-Hadoop全分布式部署

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注