机器学习知识点总结

1、人工智能、机器学习、深度学习
人工智能-(为机器赋予人的智能):人工智能技术希望使用计算机来构造复杂的、拥有与人类智慧同样本质特性的机器,这些能够代替人工工作的机器,算法等等统一称之为人工智能,人工智能是最早出现的。
机器学习:一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。其最成功的应用领域是计算机视觉。
深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
2、监督和无监督
监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。
无监督学习(只提供训练样本,没有对应标签),事先没有任何训练样本,而需要直接对数据进行建模。无监督学习里典型的例子是聚类,聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
3、回归和分类
回归与分类都是有监督学习的例子,分类是指有有限个可能的问题,预测的是一个离散的、明确的变量。回归是指有无限个可能的问题,预测的是一个连续的、逼近的变量。比如房价的预测、明日气温的预测。
4、机器学习的一般步骤
数据处理(特征工程——对特征进行进一步分析,并对数据进行处理。
常见的特征工程包括:异常值处理、缺失值处理、数据分桶、特征处理、特征构造、特征筛选及降维等
训练集如何划分:传统的机器学习领域中,由于收集到的数据量往往不多,比较小,所以需要将收集到的数据分为三类:训练集、验证集、测试集。也有人分为两类,就是不需要测试集。
(1)留出法,按照7:3来分随机分割,这样得到的两个集合分布一致,适用于数据集已经接近真实分布,且类间分布没有较大偏差。如果样本量巨大,类似于深度学习,可以按照99:1来划分。
(2)自助法,有放回的抽样,抽样次数无穷多时会有33%的样本无法抽到,将抽取到的作为训练集,对应余集作为测试,实现包外估计,能够降低过拟合的风险。这方法适合集成算法模型。
(3)K-折分割,将样本随机分割K份,其中一份做测试集,其余做训练集,会得到K个模型。此方法充分利用了样本集,但是开销较大,适合算法复杂度较低的模型。
比例根据经验不同而不同,这里给出一个例子,如果是三类,可能是训练集:验证集:测试集=6:2:2;如果是两类,可能是训练集:验证集=7:3。因为数据量不多,所以验证集和测试集需要占的数据比例比较多)等)
训练(选择模型-代价函数-梯度下降优化)
测试(评测指标)

机器学习知识点总结_第1张图片
机器学习知识点总结_第2张图片
机器学习知识点总结_第3张图片

机器学习知识点总结_第4张图片

5 ROC曲线
机器学习知识点总结_第5张图片

6 多分类问题
机器学习知识点总结_第6张图片

5、归一化
数据归一化常用方法主要:线性函数归一化,零均值归一化。
线性函数归一化(Min-Max scaling) :它对原始数据进行线性变换, 使结果映射到[0, 1]的范围, 实现对原始数据的等比缩放。 归一化公式如下 :
在这里插入图片描述

该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始数据,Xmax、Xmin分别为原始数据集的最大值和最小值。
最大最小归一化容易受极端值的影响,当某列数据中存在极端值时,可以根据实际的业务场景,考虑事先将极端值或异常值剔除,或者是对标准化后的数据进行变换,如取对数等,使得变换后的数据接近于正态分布。

零均值归一化:0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集,归一化公式如下:
在这里插入图片描述
其中,μ、σ分别为原始数据集的均值和方差。
优点:去量纲化
缺点:该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很不好。
6、欠拟合和过拟合 以及应对方法
“欠拟合”常常在模型学习能力较弱,而数据复杂度较高的情况出现,此时模型由于学习能力不足,无法学习到数据集中的“一般规律”,因而导致泛化能力弱。
“过拟合”常常在模型学习能力过强的情况中出现,此时的模型学习能力太强,以至于将训练集单个样本自身的特点都能捕捉到,并将其认为是“一般规律”,同样这种情况也会导致模型泛化能力下降。
欠拟合出现原因:
1.模型复杂度过低
2.特征量过少
欠拟合的情况常见解决方法有:
1.增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间
2.添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强
3.减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数
4.使用非线性模型,比如核SVM 、决策树、深度学习等模型
5.调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力
6.容量低的模型可能很难拟合训练集;使用集成学习方法,如Bagging ,将多个弱学习器Bagging
过拟合出现原因:
1.建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则
2.样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则
3.假设的模型无法合理存在,或者说是假设成立的条件实际并不成立
4.参数太多,模型复杂度过高
5.对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集
6.对于神经网络模型:a)对样本数据可能存在分类决策面不唯一,随着学习的进行,,BP算法使权值可能收敛过于复杂的决策面;b)权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征
过拟合的解决方案:
1.正则化(Regularization)(L1和L2)
2.数据扩增,即增加训练数据样本,给足够多的数据,让模型「看见」尽可能多的「例外情况」,它就会不断修正自己,从而得到更好的结果。
3.Dropout机制:在训练时,每次随机(如50%概率)忽略隐层的某些神经元。
4.Early stopping:Early stopping便是一种迭代次数截断的方法来防止过拟合的方法,即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。
7、线性回归和逻辑回归
线性回归的基本原理:
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛 如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
逻辑回归与线性回归的区别:
1)逻辑回归和线性回归首先都是广义的线性回归。
(2)经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数。
(3)线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。
或者说,线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

8、决策树
决策树的基本原理:
决策树是一种非参数的监督学习方法,它主要用于分类和回归问题。
决策树模型通过一系列if then决策规则的集合,将特征空间划分成有限个不相交的子区域,对于落在相同子区域的样本,决策树模型给出相同的预测值。这些if then决策规则之间的层次关系形成一个树形结构,称之为决策树,这些不相交的子区域和树结构的叶子节点一一对应。决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。
使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果
常见的三种决策树算法的特点:
ID3:构造准则是信息增益。
机器学习知识点总结_第7张图片

C4.5的构造准则是信息增益比。C4.5针对ID3的缺点做了很多优化,其中最值得一提的是用信息增益比来代替单纯的信息增益,作为特征选择的衡量标准。信息增益比能缓解在样本不足的情况下,ID3对取值更多的特征的偏好。C4.5还通过离散化连续数值特征,使得信息增益比也可以在这些特征上使用。C4.5也加入了处理缺失值的方法,以及添加了简单的正则化剪枝,以缓解过拟合的问题。
CART:CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。CART是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。而且每个非叶子节点都有两个孩子,所以CART的叶子节点比非叶子多1。相比ID3和C4.5,CART应用要多一些,既可以用于分类也可以用于回归。CART分类时,使用基尼指数(Gini)来选择最好的数据分割特征,Gini描述的是纯度,与信息熵的含义相似。CART中每一次迭代都会降低Gini系数。
熵、信息增益和信息增益率:
熵(可以理解为平均信息量,就是信息量的期望值):
在信息学中,对于接收者来说,发送者发送的信息是不确定的,所以对于接收者来说,他会接受到的信息是随机的,这里就引入了熵的概念。统计学中说熵的概念是一个系统可能存在的状态的个数的对数。虽然对于接收者来说,他可能接收的信息的个数是随机的,但是总是在一个范围内,他可能接收的信息的个数的对数就是信息熵。信息熵越小数据越纯,信息增益越大。
机器学习知识点总结_第8张图片

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
机器学习知识点总结_第9张图片

信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。一般来说,一个属性的信息增益越大,就意味着使用该属性来进行划分所得到的“纯度提升”越大。因此,我们可以使用信息增益来进行决策树的第一个结点划分属性选择。
机器学习知识点总结_第10张图片

信息增益率,其表示节点的信息与节点分裂信息度量的比值,增益率通常作为属性选择的方法之一。
9、朴素贝叶斯
贝叶斯公式:
机器学习知识点总结_第11张图片
机器学习知识点总结_第12张图片

什么是朴素贝叶斯
朴素贝叶斯算法是应用最为广泛的分类算法之一。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。
拉普拉斯平滑的意思:
机器学习知识点总结_第13张图片

手工推算贝叶斯分类的过程:
机器学习知识点总结_第14张图片

10、SVM
SVM的基本原理:对于很多分类问题,例如最简单的,一个平面上的两类不同的点,如何将它用一条直线分开?在平面上我们可能无法实现,但是如果通过某种映射,将这些点映射到其它空间(比如说球面上等),我们有可能在另外一个空间中很容易找到这样一条所谓的“分隔线”,将这些点分开。SVM基本上就是这样的原理。SVM的一般做法是:将所有待分类的点映射到“高维空间”,然后在高维空间中找到一个能将这些点分开的“超平面”,这在理论上是被完全证明了是成立的,而且在实际计算中也是可行的。
但是仅仅找到超平面是不够的,因为在通常的情况下,满足条件的“超平面”的个数不是唯一的。SVM 需要的是利用这些超平面,找到这两类点之间的“最大间隔”。为什么要找到最大间隔呢?我想这与SVM的“推广能力”有关,因为分类间隔越大,对于未知点的 判断会越准确,也可以说是“最大分类间隔”决定了“期望风险”,总结起来就是:SVM要求分类间隔最大,实际上是对推广能力的控制。
11、无监督算法-聚类
K-means算法的原理:在数据集中根据一定策略选择K个点作为每个簇的初始中心,然后观察剩余的数据,将数据划分到距离这K个点最近的簇中,也就是说将数据划分成K个簇完成一次划分,但形成的新簇并不一定是最好的划分,因此生成的新簇中,重新计算每个簇的中心点,然后在重新进行划分,直到每次划分的结果保持不变。在实际应用中往往经过很多次迭代仍然达不到每次划分结果保持不变,甚至因为数据的关系,根本就达不到这个终止条件,实际应用中往往采用变通的方法设置一个最大迭代次数,当达到最大迭代次数时,终止计算。
算法如何实现聚类的过程; 具体的算法步骤如下:
1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
4、如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程
K-means聚类能处理比层次聚类更大的数据集。另外,观测值不会永远被分到一类中,当我们提高整体解决方案时,聚类方案也会改动。不过不同于层次聚类的是,K-means会要求我们事先确定要提取的聚类个数.
有何特点:
K-Menas算法试图找到使平方误差准则函数最小的簇。当潜在的簇形状是凸面的,簇与簇之间区别较明显,且簇大小相近时,其聚类结果较理想。对于处理大数据集合,该算法非常高效,且伸缩性较好。
但该算法除了要事先确定簇数K和对初始聚类中心敏感外,经常以局部最优结束,同时对“噪声”和孤立点敏感,并且该方法不适于发现非凸面形状的簇或大小差别很大的簇。
克服缺点的方法:使用尽量多的数据;使用中位数代替均值来克服outlier的问题。
12、神经网络
简单神经网络(单一隐层)的结构
机器学习知识点总结_第15张图片

前向传播的手工推导
https://www.bilibili.com/video/BV1q7411W7pj?from=search&seid=17980435219620719123
机器学习知识点总结_第16张图片
反向传播的手工推导

你可能感兴趣的:(机器学习,人工智能,算法)