问答 2017-06-23 来自:开发者社区

【教程免费下载】 Spark大数据分析实战

Preface?前  言 为什么要写这本书 Spark大数据技术还在如火如荼地发展,Spark中国峰会的召开,各地meetup的火爆举行,开源软件Spark也因此水涨船高,很多公司已经将Spark大范围落地并且应用。Spark使用者的需求已经从最初的部署安装、运行实例,到现在越来越需要通过Spark构建丰富的数据分析应用。写一本Spark实用案例类的技术书籍,是一个持续了很久的想法。由于工作较为....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——导读

本节书摘来自华章社区《Spark大数据分析实战》一书中的目录,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 目  录 前 言第1章 Spark简介 1.1 初识Spark 1.2 Spark生态系统BDAS 1.3 Spark架构与运行逻辑 1.4 弹性分布式数据集 1.5 本章小结 第2章 Spark开发与...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——3.5节本章小结

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.5节本章小结,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.5 本章小结本章主要介绍了BDAS中广泛应用的几个数据分析组件。SQL on Spark提供在Spark上的SQL查询功能。让用户可以基于内存计算和SQL进行大数据分析。通过Spark Streaming,用户可以构建实时流处理应用,其高....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——3.4节MLlib

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.4节MLlib,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.4 MLlibMLlib是构建在Spark上的分布式机器学习库,充分利用了Spark的内存计算和适合迭代型计算的优势,将性能大幅度提升。同时由于Spark算子丰富的表现力,让大规模机器学习的算法开发不再复杂。3.4.1 MLlib简介M....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——3.3节GraphX

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.3节GraphX,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.3 GraphXGraphX是Spark中的一个重要子项目,它利用Spark作为计算引擎,实现了大规模图计算的功能,并提供了类似Pregel的编程接口。GraphX的出现,将Spark生态系统变得更加完善和丰富;同时以其与Spark生....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——3.2节Spark Streaming

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.2节Spark Streaming,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.2 Spark StreamingSpark Streaming是一个批处理的流式计算框架。它的核心执行引擎是Spark,适合处理实时数据与历史数据混合处理的场景,并保证容错性。下面将对Spark Streaming....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——2.5节本章小结

本节书摘来自华章社区《Spark大数据分析实战》一书中的第2章,第2.5节本章小结,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 2.5 本章小结本章首先介绍了Spark应用程序的开发流程以及如何编译和调试Spark程序。用户可以选用对Scala项目能够很好支持的Intellij IDE。如果用户想深入了解Spark,以及诊断问题,建议读者配置好源码阅读环境,进行源码分....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——2.3节Spark编译

本节书摘来自华章社区《Spark大数据分析实战》一书中的第2章,第2.3节Spark编译,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 2.3 Spark编译用户可以通过Spark的默认构建工具SBT进行源码的编译和打包。当用户需要对源码进行二次开发时,则需要对源码进行增量编译,通过下面的方式读者可以实现编译和增量编译。(1)克隆Spark源码可通过克隆的方式克隆Spa....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——1.5节本章小结

本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章,第1.5节本章小结,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.5 本章小结本章首先介绍了Spark分布式计算平台的基本概念、原理以及Spark生态系统BDAS之上的典型组件。Spark为用户提供了系统底层细节透明、编程接口简洁的分布式计算平台。Spark具有内存计算、实时性高、容错性好等突出特点。同....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——1.2节Spark生态系统BDAS

本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章,第1.2节Spark生态系统BDAS,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.2 Spark生态系统BDAS目前,Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈(BDAS)。其核心框架是Spark,同时涵盖支持结构化数据SQL查询与分析的....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等