数据分析--机器学习

1. 监督学习和无监督学习:

监督学习是指利用一组已知类别的样本训练分类器的参数,使其达到所要求性能的过程。

无监督学习指根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题的过程。

监督学习适用于样本数据类别已知的情况。非监督学习适用于无类别信息的情况。

监督学习分为两类问题:回归分类

回归: 线性回归、回归树、非线性回归、贝叶斯线性回归、多项式回归

分类: 随机森林、决策树、逻辑回归、SVM、朴素贝叶斯、KNN

无监督学习分为两类问题:聚类关联

K-means 聚类、层次聚类、异常检测、神经网络、主成分分析、独立成分分析、先验算法、奇异值分解

优缺点:监督学习与无监督学习_监督学习和无监督学习_川川菜鸟的博客-CSDN博客

1.1 SVM (分类,有监督)

SVM是一个分类器,相对于传统的线性分类器,它添加了一个支持向量的概念。这样相对于传统分类器可能存在的多个解,SVM由于约束的存在一般只有单解,并且表现更好。

SVM是在特征空间上找到最优的分离超平面,使得训练集上的正负样本间隔最大。是用来解决二分类问题的有监督学习算法,在引入核方法后也可以解决非线性问题,常用的核函数:高斯核(Gaussian kernel)。或加入松弛因子slack。

对于一组数据,传统的线性分类器使用一条直线将数据分类,而SVM在使用直线的同时要求数据点距离这条直线的最小距离最大,也就是和数据之间要有足够大的“间隔”。这样做的好处是很明显的,越大的“间隔”代表了更大的转圜空间,在得到新的数据之后更容易将其正确分类。

而SVM的工作就是求解这个最大间隔,也就是最优化问题。对于线性可分的数据,可以直接套用线性规划的知识进行推导,但如果数据线性不可分,就需要核函数进行数据升维,进行超平面分类。

1.2 决策树 (分类,有监督)

决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。决策树的生成算法有ID3, C4.5和C5.0,CART (Classification and Regression Tree)等

决策树的构造过程:
(1)特征选择: 特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准,如何选择特征有不同的量化评估方法,从而衍生出不同的决策树,如ID3(通过信息熵增益选择特征)、C4.5(通过信息熵增益比选择特征)、CART(通过Gini指数选择特征)等。 目的(准则):使用某特征对数据集划分之后,各数据子集的纯度要比划分前的数据集D的纯度高(也就是不确定性要比划分前数据集D的不确定性低)  
 (2)决策树的生成 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。对于当前数据集的每一次划分,都希望根据某个特征划分之后的各个子集的纯度更高,不确定性更小。  
 (3)决策树的裁剪 决策树容易过拟合,一般需要剪枝来缩小树结构规模、缓解过拟合。 

混淆矩阵:数据分析--机器学习_第1张图片

1.3 随机森林

随机森林采用Bagging的思想,步骤如下:

第一步(选样本):T中共有N个样本,有放回的随机采样N个样本。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。

第二步(选属性):当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。

第三步:决策树形成过程中每个节点都要按照步骤2来分裂,生成完全树(过程中没有进行剪枝。)

第四步:按照步骤1~3建立大量的决策树,这样就构成了随机森林了。

第五步:众多决策树构成了随机森林,每棵决策树都会有一个投票结果,最终投票结果最多的类别,就是最终的模型预测结果。

1.4  朴素贝叶斯࿰

你可能感兴趣的:(机器学习,数据分析,聚类)