文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系、以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】Apache Storm中的资源感知调度

本讲义出自Jerry Peng在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Apache Storm的相关知识内容、目前遇到的挑战和问题并且对于资源感知调度器进行了详细介绍。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】Columnar Era:利用Parquet,Arrow and Kudu获取高性能

本讲义出自 Julien Le Dem在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Columnar Era是利用Parquet,Arrow and Kudu获取数据计算的高性能的,并且分享了社区驱动的标准以及互操作性和Columnar Era的生态系统。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学

本讲义出自Robert Hryniewicz在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据科学以及机器学习的相关基本概念以及机器学习的例子,并分享了机器学习的方法,还分享了K-means的聚类方法、决策树以及随机森林等相关知识。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】Apache NiFi的先锋派

本讲义出自Joe Percivall在Hadoop Summit Tokyo 2016上的演讲,主要对于Apache NiFi进行了介绍,还介绍了NiFi中新的特性,并且对于MiNiFi的相关概念以及架构设计进行了介绍。 Apache NiFi是Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置。两个最重要的特性.....

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】LLAP:Hive上的次秒级分析查询

本讲义出自Yuta Imai在Hadoop Summit Tokyo 2016上的演讲,主要分享了为什么选择LLAP,并对于LLAP的相关概念进行了分享,在演讲中还介绍了Hive 2 与LLAP的架构概览,并对于MR、Tez与Tez+LLAP的三种方式进行了比较,并分享了为什么LLAP能够让查询变得更快。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】Hadoop Common与HDFS中有什么新特性?

本讲义出自Tsuyoshi Ozawa在Hadoop Summit Tokyo 2016上的演讲,主要分享了Hadoop 3 Common与HDFS出现的新特性,因为新版本的Hadoop运行在JDK8上,在应用构建的过程中,所以需要使用JDK8编译源代码,并且新版本的Hadoop具有更好的库管理,并且支持Azure数据湖泊存储,最后还分享了关于脚本重写与Apache Kafka的metrics2....

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】Apache Hadoop 3.0 :YARN和MapReduce有什么新特性?

本讲义出自Junping Du在Hadoop Summit Tokyo 2016上的演讲,主要分享了在Apache Hadoop 3.0中YARN和MapReduce已经拥有和正在演进的新特性,并且对于Apache Hadoop 3.0 版本的时间轴进行了分享。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】使用Apache Ranger和Apache Atlas进行数据治理

本讲义出自Madhan Neethiraj在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使用Apache Ranger和Apache Atlas保障数据安全并进行数据治理,首先分享了Apache Ranger的概览、授权策略、行过滤和列标记策略以及审计日记等相关内容,之后分享了Apache Atlas的概览的相关内容。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲,主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin,Griffin可以用于处理批量数据、实时数据和非结构化的数据,并且构建了统一的过程来检测无效或者不准确等DQ问题,讲义中介绍了eBayGriffin的技术架构、以及用例等。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等