阿里云文档 2025-03-21

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-02-14

基于自建Hadoop集群进行自定义CDH镜像

本文为您介绍如何在DataWorks绑定自建 Hadoop 集群并进行任务开发,以及如何自定义自建集群运行环境。

阿里云文档 2025-01-23

与自建集群的对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和分析场景。

阿里云文档 2024-12-30

基于Hadoop集群支持Delta Lake或Hudi存储机制

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。

文章 2024-10-16 来自:开发者社区

大数据平台的毕业设计01:Hadoop与离线分析

前言 最近有很多人问我,大数据专业有什么好的毕设项目,我就简单的回复了一下。也有直接问我要源码的.... 所以就抽空写一写自己毕业设计的一个思路,大数据是我实习自学的,这个思路是我当初自己想的,就当做一份参考吧。 在我毕业那年,同学们毕业设计大多都是以Java语言开发的各种管理...

大数据平台的毕业设计01:Hadoop与离线分析
阿里云文档 2024-04-03

迁移Hadoop集群至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略与步骤。

文章 2022-11-12 来自:开发者社区

大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析

文章目录前言一、创建 Ubuntu 用户二、安装 Java2.1、查看本地 Java 版本2.2、验证 Java 在本地的配置情况三、安装 ssh 服务3.1、安装 openssh-server3.2、查看 ssh 服务是否启动四、Hadoop 伪分布式安装4.1、Hadoop 下载4.2、进入下载安装包的目录4.3、Hadoop 解压4.3.1、解压命令 tar zxvf 中 zxvf 分别是....

大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析
文章 2022-10-20 来自:开发者社区

大数据基础-Hadoop序列化机制与InputFormat分析

Hadoop序列化机制当程序在向磁盘中写数据和读取数据时会进行序列化和反序列化,磁盘IO的这些步骤无法省略,我们可以从这些地方着手优化。当我们想把内存数据写到文件时,写序列化后再写入,将对象信息转为二进制存储,默认Java的序列化会把整个继承体系下的信息都保存,这就比较大了,会额外消耗性能。反序列化也是一样的,如果文件很大,加载数据进内存也需要耗费很多资源。鉴于上述问题,Hadoop提供了常用类....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等