浅谈数据四-建模·分类与预测

很多企业需要通过数据分析来帮助他们了解具有某些特性的顾客的消费习惯,就类似连锁零售企业希望知道下个月的销售趋势、销量,从而去准备采购原材料数量、铺货等等的,这些都是分类与预测的例子。分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定变量对应的因变量的值。

处理过程

1. 分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以更方便的计算,所以分类是属于有监督的学习。

2.预测
预测是指建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。

3.实现过程
分类算法有两步过程: 一是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;二是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集来进行预测。

预测模型的实现步骤也有两步,一是通过训练集建立预测属性(数值型的)的函数模型,第二步在模型通过检验后进行预测或控制。

常用分类和预测算法

算法 算法描述
回归分析 回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。
决策树 决策树采用自顶乡下的递归方式,在内部节点进行属性值比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类
人工神经网络 人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型
贝叶斯网络 贝叶斯网络又称信度网络,是Bayes方法的拓展,是目前不确定知识表达和推理领域最有效的理论模型之一
支持向量机 支持向量机是一种通过某种非线性映射,把低维的非线性可转化为高维度的线性可分,在高维空间进行线性分析的算法。

回归分析

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态以及进行模型预测的一种有效工具。在数据挖掘的环境下,自变量与因变量是具有相关关系的,自变量的值是已知的,因变量是要预测的。

回归分析研究大概范围
模型 适用条件 算法描述
线性回归 因变量与自变量是线性关系 对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数
非线性回归 因变量与自变量不都是线性关系 对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以简单通过函数转化为线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘法求解
Logistic回归 因变量一般有是否两种取值 是广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0~1间,表示取值为1的概率
岭回归 参与建模的自变量之间具有多重共线性 是一种改进最小二乘估计的方法
主成分回归 参与建模的自变量之间具有多成共线性 主成分回归是根据主成分分析的思想提出来的,是对最小二乘法的一种改进,他是参数估计的一种有偏估计。可以消除变量之间的多重共线性

决策树

决策树方法在分类、预测、规则提取等领域有广泛应用。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造决策树是自上而下,分而治之的过程。

算法 描述
ID3算法 以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。只适用于离散的描述属性
C4.5 相较于ID3算法,改进使用信息增益率来选择节点属性。 适用于离散的描述属性,也适用于处理连续的描述属性
CART算法 是一种十分有效的非参数分类和回归方法,通过构建树、修建树、评估树来构造一个二叉树。当终结点是连续变量时,为回归树,当终结点是分类变量,为分类树。

人工神经网络

人工神经网络,是模拟生活神经网络进行信息处理的一种数学模型。它以对大脑的胜利研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特定功能。其中人工神经元是人工神经网络操作的基本信息处理单位。
在人工神经网络发展过程中,提出了多种不同的学习机制,目前还没有一种特定的学习算法适用于所有的网络结构和具体问题。

算法 描述
LM神经网络 给予梯度下降发和牛顿法结合的多层前馈网络,迭代次数少,收敛速度快,精度高
RBF径向基神经网络 RBF网络能够以任意精度逼近任意连续函数,从输入层到隐含层的变换是非线性的,从而隐含层到输出层的变换是线性的,适用于解决分类问题
FNN模糊神经网络 具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点,集联想、识别、自适应以及模糊信息处理于一体。
GMDH神经网络 也称为多项式网络,他是前馈神经网络中常用的一种用于预测的神经网络,特点是 网络结构不稳定,而且在训练过程不断改变
ANFIS自适应神经网络 神经网络镶嵌在一个全部模糊的结构中,在不知不觉中向训练数据学习,自动产生、修正并高度概括出最佳的输入和输出变量的隶属函数以及模糊规则;另外神经网络的各层结构与参数也都有了明确,易于理解的物理意义

你可能感兴趣的:(浅谈数据四-建模·分类与预测)