文章 2017-05-02 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一 第1章 大数据技术一览

 本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.1节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第1章 大数据技术一览 我们正处在大数据时代。数据不仅是任何组织的命脉,而且在指数级增长。今天所产生的数据比过去几年所产生的数据大好几个数量级。挑战在于如何从数据中获取商业价...

文章 2017-05-02 来自:开发者社区

《Spark大数据分析实战》——第1章Spark简介

本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章Spark简介,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看 第1章Spark简介本章主要介绍Spark框架的概念、生态系统、架构及RDD等,并围绕Spark的BDAS 项目及其子项目进行了简要介绍。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Strea....

文章 2017-04-03 来自:开发者社区

技术派:优酷土豆用Spark完善大数据分析

大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活。也许有人认为大数据在中国仍然只是噱头,但在当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展,并为广大中国网民提供更加优秀的服务。优酷土豆作为国内最大的视频网站,和国内其他互联网巨头一样,率先看到大数据对公司业务的价值,早在2009年就开始使用Hadoop集群,随着这些年业务迅猛....

文章 2016-04-05 来自:开发者社区

颠覆大数据分析之Spark弹性分布式数据集

颠覆大数据分析之Spark弹性数据集 译者:黄经业    购书 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——从HDFS文件中创建RDD...

颠覆大数据分析之Spark弹性分布式数据集
文章 2016-04-05 来自:开发者社区

颠覆大数据分析之Spark为Shark所提供的扩展

颠覆大数据分析之Spark为Shark所提供的扩展 译者:黄经业    购书 在Spark的RDD上执行SQL查询遵循的是传统并行数据库的三步流程: 查询解析 逻辑计划的生成 将逻辑计划映射为物理的执行计划 Shark使用Hive查询编译器来进行查询语句的解析。它会生成一棵抽象语法树,然后再将它转化成一个逻辑计划。Shark中逻辑计划的生成方式也类似于Hive中的。但两者的物理...

颠覆大数据分析之Spark为Shark所提供的扩展

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等