阿里云文档 2025-02-14

基于自建Hadoop集群进行自定义CDH镜像

本文为您介绍如何在DataWorks绑定自建 Hadoop 集群并进行任务开发,以及如何自定义自建集群运行环境。

文章 2018-10-18 来自:开发者社区

自定义hadoop map/reduce输入文件切割InputFormat

hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类进行实现的。 那么,FileInputFormat是怎样将他们划分成spl...

文章 2017-11-22 来自:开发者社区

自定义Hadoop的可序列化类

java原生语言中要想一个自定义类可序列化,很简单,只要让这个类实现java.io.Serializable接口就可以了,但是在Hadoop框架中,要想让自定义类可以被序列化,我们必须手动让其实现WritableCompable接口并且实现write(),readFields(),compareTo()方法。 下面就是一个我们自定义的可序列化的类: /*    */&...

文章 2016-09-09 来自:开发者社区

自定义Spark Partitioner提升es-hadoop Bulk效率

前言 之前写过一篇文章,如何提高ElasticSearch 索引速度。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这篇文章涉及的调整也是对SparkES 多维分析引擎设计 中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。 问....

文章 2015-02-11 来自:开发者社区

通过java api提交自定义hadoop 作业

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/43734989 通过API操作之前要先了解几个基本知识 一、hadoop的基本数据类型和java的基本数据类型是不一样的,但是都存在对应的关系 如下...

通过java api提交自定义hadoop 作业

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注