简单易懂的机器学习算法介绍

决策树

- - -决策树的基本原理

决策树(Decision Tree)是⼀种分⽽治之的决策过程。⼀个困难的预测问题,通过树的分⽀节点,被划分成两个或多个较为简单的⼦集,从结构上划分为不同的⼦问题。将依规则分割数据集的过程不断递归下去(Recursive Partitioning)。随着树的深度不断增加,分⽀节点的⼦集越来越⼩,所需要提的问题数 也逐渐简化。当分⽀节点的深度或者问题的简单程度满⾜⼀定的停⽌规则(Stopping Rule)时, 该分⽀节点会停⽌分裂,此为自上而下的停⽌阈值(Cutoff Threshold)法;有些决策树也使⽤自下而上的剪枝(Pruning)法。
简单易懂的机器学习算法介绍_第1张图片

- - -决策树的三要素

1、特征选择:从训练数据中众多的特征中选择⼀个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从⽽衍⽣出不同的决策树算 法。
2、决策树⽣成:根据选择的特征评估标准,从上⾄下递归地⽣成⼦节点,直到数据集不可分则决策树停⽌⽣⻓。树结构来说,递归结构是最容易理解的⽅ 式。
3、剪枝:决策树容易过拟合,⼀般来需要剪枝,缩⼩树结构规模、缓解过拟合。

支持向量机

- - -什么是支持向量机

⽀持向量:在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为⽀持向量。
⽀持向量机(Support Vector Machine,SVM):其含义是通过⽀持向量运算的分类器。

- - -图解

在⼀个⼆维环境中,其中点R,S,G点和其它靠近中间⿊线的点可以看作为⽀持向量,它们可以决定分类器,即⿊线的具体参数。
简单易懂的机器学习算法介绍_第2张图片

图解极大似然估计

简单易懂的机器学习算法介绍_第3张图片
例:有两个外形完全相同的箱⼦,1号箱有99只⽩球,1只⿊球;2号箱有1只⽩球,99只⿊球。在⼀次实验中,取出的是⿊球,请问是从哪个箱⼦中取出的?
⼀般的根据经验想法,会猜测这只⿊球最像是从2号箱取出,此时描述的“最像”就有“最⼤似然”的意思,这种想法常称为“最⼤似然原理”。

- - -极大似然估计原理

总结起来,最⼤似然估计的⽬的就是:利⽤已知的样本结果,反推最有可能(最⼤概率)导致这样结果的参数值。
极⼤似然估计是建⽴在极⼤似然原理的基础上的⼀个统计⽅法。极⼤似然估计提供了⼀种给定观察数据来评估模型参数的⽅法,即:“模型已定,参数未知”。通过若⼲次试验,观察其结果,利⽤试验结果得到某个参数值能够使样本出现的概率为最⼤,则称为极⼤似然估计。

EM算法

最⼤期望算法(Expectation-Maximization algorithm, EM),是⼀类通过迭代进⾏极⼤似然估计的优化算法,通常作为⽜顿迭代法的替代,⽤于对包含隐变 量或缺失数据的概率模型进⾏参数估计。

  • 最⼤期望算法基本思想是经过两个步骤交替进⾏计算:
  • 第⼀步是计算期望(E),利⽤对隐藏变量的现有估计值,计算其最⼤似然估计值;
  • 第⼆步是最⼤化(M),最⼤化在E步上求得的最⼤似然值来计算参数的值。
    M步上找到的参数估计值被⽤于下⼀个E步计算中,这个过程不断交替进⾏。

聚类和降维的区别和联系

聚类⽤于找寻数据内在的分布结构,既可以作为⼀个单独的过程,比如异常检测等等。也可作为分类等其他学习任务的前驱过程。聚类是标准的⽆监督学习。
聚类的应用:在⼀些推荐系统中需确定新用户的类型,但定义“用户类型”却可能不太容易,此时往往可先对原有的用户数据进⾏聚类,根据聚类结果将每个簇定义为 ⼀个类,然后再基于这些类训练分类模型,⽤于判别新用户的类型。
简单易懂的机器学习算法介绍_第4张图片
降维的应用:降维是为了缓解维数灾难的⼀个重要方法,就是通过某种数学变换将原始⾼维属性空间转变为⼀个低维“⼦空间”。其基于的假设就是,虽然⼈们平 时观测到的数据样本虽然是⾼维的,但是实际上真正与学习任务相关的是个低维度的分布。从⽽通过最主要的⼏个特征维度就可以实现对数据的描述,对于后续的分类很有帮助。例如,如对于泰坦尼克号生还问题。通过给定⼀个乘客的许多特征如年龄、姓名、性别、票价等, 来判断其是否能在海难中⽣还。这就需要⾸先进⾏特征筛选,从⽽能够找出主要的特征,让学习到的模型有更好的泛化性。

聚类和分类的区别

聚类(Clustering),简单地说就是把相似的东⻄分到⼀组,聚类的时候,我们并不关⼼某⼀类是什么,我们需要实现的⽬标只是把相似的东⻄聚到⼀起。⼀个聚类算法通常只需要知道如何计算相似度就可以开始⼯作了,因此聚类通常并不需要使⽤训练数据进⾏学习,在机器学习中属于⽆监督学习。
分类(Classification),对于⼀个分类器,通常需要你告诉它“这个东⻄被分为某某类”。⼀般情况下,⼀个分类器会从它得到的训练集中进⾏学习,从⽽具备对未知数据进⾏ 分类的能力,在机器学习中属于监督学习。

四种聚类算法介绍

- - - k-means聚类算法

k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较⾼的相似度,⽽簇间的相似度较低。

  • k-means算法的处理过程如下:⾸先,随机地选择k个对象,每个对象初始地代表了⼀个簇的平均值或中心;对剩余的每个对象,根据其与各簇中⼼的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。 这个过程不断重复,直到准则函数收敛。
- - -层次聚类算法

根据层次分解的顺序是⾃底向上的还是⾃上向下的,层次聚类算法分为凝聚的层次聚类算法和分裂的层次聚类算法。 凝聚型层次聚类的策略是先将每个 对象作为⼀个簇,然后合并这些原⼦簇为越来越⼤的簇,直到所有对象都在⼀个簇中,或者某个终结条件被满⾜。绝⼤多数层次聚类属于凝聚型层次聚类, 它们只是在簇间相似度的定义上有所不同。

- - -SOM聚类算法

该算法假设在输⼊对象中存在⼀些拓扑结构或顺序,可以实现从输⼊空间(n维)到输出平⾯(2
维)的降维映射,其映射具有拓扑特征保持性质,与实际的⼤脑处理有很强的理论联系。

- - -FCM(fuzzy c-means)聚类算法

FCM(fuzzy c-means)聚类融合了模糊理论的精髓。相较于k-means的硬聚类,模糊c提供了更加灵活的聚类结果。因为大部分情况下,数据集中的对象不能划分成为明显分离的簇,指派一个对象到一个特定的簇有些生硬,也可能会出错。故,对每个对象和每个簇赋予一个权值,指明对象属于该簇的程度。

你可能感兴趣的:(机器学习,分类,回归,神经网络,聚类)