文章 2017-05-19 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》导读

Contents  目  录 译者序 前言 致谢 第1章 大数据技术一览 1.1 Hadoop 1.1.1 HDFS 1.1.2 MapReduce 1.1.3 Hive 1.2 数据序列化 1.2.1 Avro 1.2.2 Thrift 1.2.3 Protocol Buffers 1.2.4 SequenceFile 1.3 列存储 1.3.1 RCFile 1.3.2 ORC 1....

文章 2017-05-19 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》Spark Core

本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区“华章计算机”公众号查看。 Spark Core Spark是大数据领域最活跃的开源项目,甚至比Hadoop还要热门。如第1章所述,它被认为是Hadoop的继任者。Spark的使用率大幅增长。很多组织正在用Spark取代H...

文章 2017-05-19 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区“华章计算机”公众号查看。 大数据技术一览 我们正处在大数据时代。数据不仅是任何组织的命脉,而且在指数级增长。今天所产生的数据比过去几年所产生的数据大好几个数量级。挑战在于如何从数据中获取商业价值。这就是大数据相关技术想要解.....

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一导读

前  言  Preface 本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。 购买本书的好处之一就是:帮你高效学习Spark,节省你大量时间。本书所覆盖的主题在互联网上都可以找到,网上有很多关于Spark的博客、PPT和视频。事实上,Spark的资料浩如烟海,你可能需要在网络上不同地方...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一3.10 总结

 本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.10节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.10 总结 Spark是一个快速、可扩展、可容错且基于内存的集群计算框架。一个Spark应用可以比Hadoop应用快上100倍。 Spark不但快速而且它能很...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一3.9 共享变量

 本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.9节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.9 共享变量 Spark使用的架构是无共享的。数据分布在集群的各个节点上,每个节点都有自己的CPU、内存和存储资源。没有全局的内存空间用于任务间共享。驱动程序和...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一3.8 Spark作业

 本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.8节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.8 Spark作业 RDD上的转换、操作和缓存方法构成了Spark应用的基础。从本质上说,RDD描述了Spark编程模型。既然我们介绍过了编程模型,那么接下来我...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一 3.4 数据源

本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.4 数据源 Spark本质上是一个使用集群节点进行大数据集处理的计算框架。与数据库不同,它并没有存储系统,但是它可以搭配外部存储系统使用。Spark一般都配合能存储大量数据的分...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一 第3章 Spark Core

本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第3章 Spark Core Spark是大数据领域最活跃的开源项目,甚至比Hadoop还要热门。如第1章所述,它被认为是Hadoop的继任者。Spark的使用率大幅增长。很多组织...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一2.4 总结

本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第2章,第2.4节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4 总结 Scala是一门运行在JVM之上的静态类型语言,它用来开发多线程和分布式的应用程序。它结合了面向对象编程和函数式编程各自的优点。而且,它可以和Java无缝集成在一起。...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注