[置顶] 数据挖掘的含义、应用、常见任务等知识点汇总

数据挖掘的含义、应用、常见任务等知识点汇总


数据挖掘这一术语所指的范围非常广泛,从即席式查询、基于规则的通知或透视图分析,到政府的监听计划。在本书中,数据挖掘是一个过程,使用自动方法分析数据,以便找到隐藏的模式。提到这种数据挖掘时,常常使用其他术语,例如计算机学习,数据库中的知识发现或者预测分析。


数据挖掘的主要目的是从已有数据中提炼知识,这就提高了已有数据的内在价值,并且使数据成为有用的东西。


数据挖掘将算法(比如决策树,聚类,关联,时序算法等)应用到某一数据集,然后分析该数据集的内容。这种分析能挖掘出模式,这些模式含有有价值的信息。根据所使用的基本算法,这些模式可以是决策树,规则,聚类或者简单的数学公式。在模式中发现的信息可用作市场策略的指导,它对于预测来说非常重要。

 

数据挖掘解决的商业问题


推荐信息的生成

异常检测

客户流失分析

风险管理

客服细分

广告定位

预测

 

数据挖掘的任务

 

分类:


把多个事例分成多个类别的行为。每个事例包含一组属性,其中有一个属性是类别属性。分类任务要求找到一个模型,该模型将类别属性定义为输入属性的函数。分类模型将使用事例的其他属性(输入属性)来确定类别的模式(输出属性)。有目标的数据挖掘算法称为有监督的算法。

典型的分类算法有决策树算法,神经网络算法和贝叶斯算法

 

聚类:

 

在同一个聚类中的事例或多或少有相似的属性值。

聚类分析是一个无监督的数据挖掘任务,没有一个属性用于指导训练过程,因此,所有的输入属性都平等对待。大多数聚类算法通过多次迭代来构建模型,当模型收敛时算法停止,也就是说,当细分的边界变得稳定时算法停止。

 

关联:

 

关联也叫购物篮分析。关联通常用于确定常见的物品集和规则集,以达到交叉销售的目的。

关联任务有两个目标:找出经常一起出现的那些物品,并从中确定关联规则。

 

回归:

 

回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值来确定输出。回归使用的最流行的技术是线性回归和逻辑回归。

 

预测:

 

预测技术采用数列作为输入,表示一系列时间值,然后运用各种能处理数据周期性分析,趋势分析,和噪声分析的计算机学习和统计技术来估算这些未来的值。

 

序列分析:

 

序列分析用来发现一系列事件中的模式,这一系列事件称为序列。序列数据和时间序列数据的相似之处在于它们都包含连续的观察值,这些观察值是有序的。它们的区别是时间序列包含数值型数据,而序列包含离散的状态。

 

偏差分析:

 

偏差分析是为了找出一些特殊的事例,这些事例的行为与其他事例有明显的不同。

 

 

数据挖掘项目的生命周期

 

问题形成

数据收集

数据的清理和转换:数值转换,分组,聚集,缺失值处理,删除孤立点

模型构建(选择算法)

模型评估

报告和预测

应用集成

模型管理

 


参考文献:

数据挖掘原理与应用----SQL server 2008数据库

 

你可能感兴趣的:(数据挖掘,机器学习)