1. XGBoost简介 XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GBDT框架的基础上实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。XGBoost最初是一个研究项目，孵化于Distributed (Deep) Machine Learning Community (DMLC) ，由陈天奇博...

文章 2024-10-14 来自：开发者社区

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

点一下关注吧！！！非常感谢！！持续更新！！！目前已经更新到了： Hadoop（已更完） HDFS（已更完） MapReduce（已更完） Hive（已更完） Flume（已更完） Sqoop（已更完） Zookeeper（已更完） HBase（已更完） Redis （已更完） Kafka（已更完） ...

文章 2023-12-20 来自：开发者社区

【大数据技术Hadoop+Spark】HBase数据模型、Shell操作、Java API示例程序讲解（附源码超详细）

一、HBase数据模型HBase分布式数据库的数据存储在行列式的表格中，它是一个多维度的映射模型，其数据模型如下所示。表的索引是行键，列族，列限定符和时间戳，表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，列族支持动态扩展，可以很轻松的添加一个列族或者列，无须预先定义列的数量及数据类型，所有列均以字符串形式存储RowKey表示行键，每个HBase表中只能有一个行键，它在HBas....

文章 2023-12-20 来自：开发者社区

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

一、Hive简介Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具，而Hive就诞生于此，只要懂SQL语言，....

文章 2023-12-20 来自：开发者社区

【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解（超详细）

MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。一、MapReduce核心思想MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结....