问答 2021-11-07 来自:开发者社区

数据挖掘中的原始数据都存在哪些问题?

数据挖掘中的原始数据都存在哪些问题?

文章 2018-02-22 来自:开发者社区

数据挖掘之数据准备—— 原始数据的描述

数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。 首先介绍两种常见的基本类型:数值型 和 分类型 数值型值包括实型变量和整型变量如年龄,速度或长度。 数值型特征有两个重要的属性:其值有顺序关系和距离关系。 与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝...

文章 2017-04-07 来自:开发者社区

数据挖掘之数据准备——原始数据的转换

接下来介绍的几个数据转换常见类型与问题无关,并可能改善数据挖掘的结果。在特定应用中选择和使用技术,取决于数据的类型,数据量和数据挖掘任务的一般特征。 1. 标准化  一些数据挖掘方法,一般是那些基于n维空间中的点间距离计算的方法,可能需要对数据进行标准化,以获得最佳结果。测量值可按比例对应到一个特定的范围。如【-1,1】或者【0,1】。如果没有标准化,距离测量值将会超出数值较大的特征。数...

文章 2017-04-06 来自:开发者社区

数据挖掘之数据准备——原始数据的特性

最初为数据挖掘准备的所有原始数据集通常很大,它们中的许多都和人有关,且比较杂乱。 初始数据集应包含丢失值,失真,误记录和不正当样本等。要得到高质量的数据,必须在分析者看到它们之前,先整理和预处理数据,使其就像设计合理,准备充分的数据仓库中的数据一样。 杂乱数据的来源和含义。数据杂乱的原因如下:     1、数据丢失的原因包括测量或者记录出错,有时候都无法获得数据值。在数据建模处...

文章 2017-04-05 来自:开发者社区

数据挖掘之数据准备——原始数据的描述

数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。 首先介绍两种常见的基本类型:数值型 和 分类型 数值型值包括实型变量和整型变量如年龄,速度或长度。 数值型特征有两个重要的属性:其值有顺序关系和距离关系。 与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

瓴羊智能服务

专注于为企业提供数智化转型服务,数据知识挖掘机...方法论、数据技术与产品、最佳行业实践都能聊!

+关注
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等