通过这一篇文章就了解机器学习的主要内容和核心思想(包括一些算法思想总结)!!!

机器学习总结–一篇文章了解机器学习的主要要点和基础

L1和L2正则化项

对于L1正则项来说,因为L1正则项是一组菱形,这些交点容易易落在坐标轴上。因此,另⼀一个参数的值在这个交点上就是0,从⽽而实现了稀疏化。
对于 L2 正则项来说,因为 L2 正则项的等值线是一组圆形。所以,这些交点可能落在整个平 ⾯面的任意位置。所以它不不能实现「稀疏化」。但是,另⼀方面,由于 (w1, w2) 落在圆上,所以它们的值会比较接近。这就是为什么 L2 正则项可以使得参数在零附近稠密⽽而平滑。
另外,从贝叶斯的⻆角度来看,正则化等价于对模型参数引入先验分布。

1.聚类

聚类是非监督学习的代表。当训练样本的标记信息是未知的时候,我们通常需要通过学习来解释数据内在的性质和规律,此时一般要用到聚类,聚类一般是将样本划分为不相交的子集,每个子集对应相应的概念或者属性,但是需要注意的是,这对于聚类算法是未知的,聚类算法仅仅是自动形成簇结构,簇对应的含义由使用者本人来定义和把握。
经典的聚类算法:K-Means算法是基于划分的聚类算法 DBSCAN算法是基于密度的聚类算法 密度最大值聚类是基于密度的聚类

2.深度学习

狭义的来说就是很多层的神经网络。我们可以从另一个角度来理解深度学习 . 无论是 DBN 还是 CNN, 其多隐层堆叠、 每层对上一层的输出进行处理的机制,可看作是在对输入信号进行 逐层加工,从而把初始的、与输出目标之间联系不太密切的输入表示转化成与输出目标联系更密切的表示,使得原来仅基于最后一层输出映射难以完 成的任务成为可能换言之,通过多层处理,逐渐将初始的 “低层"特征表示 转化为 " 高层” 特征表示后,用"简单模型" 即可完成复杂的分类等学习任务由此可将深度学习理解为进行"特征学习 " (feature learning)或 "表示学习 " (representation learning) .

3.对数几率回归或逻辑斯蒂回归模型

利用线性回归模型的预测结果去逼近真实标记的模型。换一个角度,输出y=1的对数几率是输入x的线性函数。
逻辑斯蒂回归可以将线性函数w·x转换成概率。需要注意虽然叫回归但是却是分类模型。

4.线性类别分析(LDA)

将训练样集投影到一条直线上,使得同类样例的点在这条直线上的投影尽可能接近,同时使得异类样例的投影点尽可能的原理;在对新样本进行分类时,将其投影到这条直线上,并根据位置来确定样本的类别。

5.决策树

分类决策树的分类模型是对实例进行分类描述的一种树形结构,包括结点和有向边,结点分为内结点和叶结点。内结点表示一个特征或者属性,叶节点表示类。
ID3算法,C4.5算法和CART算法。特征选择的原则:信息增益和信息增益比,后面还有基尼指数
GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,又叫 MART(Multiple Additive Regression Tree),它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。

6.神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界作出的交互反应。
BP误差逆传播算法是最著名的神经网络学习算法它的目标是最小化训练集上的最小误差,且误差是均方误差。当然现在深度学习中国已经逐渐开始使用其他的误差种类来进行计算,取得了不错的效果。

7.梯度下降法

梯度下降法就是沿着负梯度方向搜索最优解,当误差函数在当前点的梯度为0时,则已达到局部极小,更新量变为0,此时迭代停止。梯度下降法是使用最为广泛的参数寻优方法。
牛顿法是梯度下降法的进一步发展,梯度下降法利⽤目标函数的一阶偏导数信息、以负梯度方向作为搜索方向,只考虑目标函数在迭代点的局部性质;⽽牛顿法不仅使⽤目标函数的一阶偏导 数,还进一步利⽤了目标函数的二阶偏导数,这样就考虑了梯度变化的趋势,因而能更全面地确定合适的搜索方向加快收敛,它具二阶收敛速度。拟牛顿法包括BFGS算法和DFP算法等

8.支持向量机

支持向量机是一种二分类分类模型,它的学习策略是间隔最大化,这是区别于感知机的,感知机是极小化误分点到分离超平面的距离。对于支持向量机而言,求解的分离超平面是唯一的,而感知机获得的分离超平面是无穷多个的,而且还可以通过核方法将支持持向量机转化为实质上的非线性分离器。
当训练数据线性可分时,通过硬间隔最⼤大化,学习一个线性可分支持向量机。
间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平⾯意味着以充分⼤的确信度对训练数据进行分类。即,不仅将正负实例点分开,而且对最难分的实例点(离超平面最近的点) 也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。
当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时,核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。

9.朴素贝叶斯分类器

朴素贝叶斯分类器是利用贝叶斯定理和特征条件独立性假设的分类方法。它通过训练集求输入和输出的联合概率分布,具体的就是求先验概率和条件概率分布,然后基于贝叶斯定理计算出后验概率最大的输出。根据对属性的依赖程度,贝叶斯分类器构成了一个谱:朴素贝叶斯分类器和贝叶斯网构成了谱的两端,朴素贝叶斯分类器不考虑属性间的依赖关系,而贝叶斯网可以利用任意属性间的依赖关系,而半朴素贝叶斯分类似则是其中的一个折中的方案。

10.集成学习

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)。根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类:即个体学习器问存在强依赖关系、必须串行生成的序列化方法;以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表是 Boosting,后者的代表是 Bagging 和"随机森林" (Random Forest).
Adaboost算法首先根据训练集学习一个基学习器,然后根据基学习器的表现重新分布样本,使得做错的样本在后面的学习过程中受到更多的关注。
bagging 是自助采用,每个采样集m个样本,一共T个样本集,然后基于每个样本集学习处一个基学习器,然后将这些学习器结合。
随机森林(Random Forest,简称 RF) 是 Bagging的一个扩展变体.盯在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。
随机森林可以理解为随机的构建森林的过程,随机体现在两个方面的随机采样包括有放回的重复取N个输入样本,然后随机的取部分特征,构建决策树,决策树是独立的,不存在强依赖关系的。当一个新的样本进入时由每一个决策树投票表决,最后确定为投票最多的一类。他与bagging不同的是采样特征,RF是部分特征,但bagging是全部特征,根据不同的样本集学习不同的学习器,最后来投票表决类。这里随机森林(RF)不需要剪枝,因为每一个决策树都很弱,但是大家合起来就容易了

11.降维和度量学习

k近邻的算法思想很简单:当输入一个新的样例时,首先在训练集中找到该实例的最近邻的k个实例,然后这个k个实例的多数属于某个类,就把该输入样例分类某个类。
PCA(主成分分析)是最常用的一种降维方法,它是一种无监督的线性降维方法。主成分分析的另一种解释.我们知道,样本点xi在新空间中超平面上的投影是WTXi ,若所有样本点的投影能尽可能分开, 则应该使投影后样本点的方差最大化。
对我们得到的优化目标使用拉格朗日乘子法,然后对协方差矩阵进行特征值分解,再对特征值进行排序,取前d‘个特征值对应的特征向量构成W这就是主成分分析的解。相当于降维到低维空间d‘

12.特征选择和稀疏学习

在一般的学习任务中并没有现代汉语词典可用,因而我们需要学习出一个这样的字典,为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使得学习任务得到简化,模型的复杂度降低。

13. 隐马尔可夫模型(HMM)(很重要)

隐马尔可夫模型是关于时序的概率模型,它描述的是由隐藏的马尔科夫链生成不可观测的状态序列,然后再有这个状态序列生成一个可以观测而产生观测随机序列的过程。它结构最简单的动态贝叶斯网,是著名的有向图模型,在语音识别,自然语言处理方面有着广泛的应用。
所谓的马尔可夫链就是系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。
相对比的,MRF马尔可夫随机场是一种典型的马尔可夫网,是一种著名的无向图模型。CRF条件随机场是一种判别式无向图模型。

14.规则学习

规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则。从形式语言表达能力上可分为:命题规则和一阶规则。

15.强化学习

强化学习通常用马尔可夫决策过程来描述,机器处于环境E中,x表示机器感知到环境的状态,A表示动作空间,P表示施加了动作后的状态转移函数,环境会根据潜在的函数给机器一个奖赏R。因而强化学习任务对应了四元组E=(X,A,P,R).

你可能感兴趣的:(算法)