机器学习算法基础问题(一)PCA|SVM|贝叶斯|决策树

相关文章:

机器学习算法基础问题(一)PCA|SVM|贝叶斯|过拟合

机器学习算法基础问题(二)类别不均|尺寸及感受野|Batch Norm|损失函数

机器学习算法基础问题(三)集成学习|adaboost与XGboost| EM算法

目录

一、贝叶斯与生成式判别式

1.1 生成式模型与判别式模型

1.2 贝叶斯分类器

1.3 相关贝叶斯题

二、决策树与随机森林

2.1 决策树

2.2 决策树的构造过程(training)

基于信息熵的构造

2.3 随机森林

三、协同滤波

3.1 协同滤波

四、经典算法

PCA算法

SVM

五、线性回归

7.1 最小二乘法


一、贝叶斯与生成式判别式

1.1 生成式模型与判别式模型

https://www.cnblogs.com/fanyabo/p/4067295.html

这个较容易判别其他几项正确,但是关于生成式模型和判别式模型:

  • 判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有 线性回归模型、线性判别分析、支持向量机SVM、神经网络等。
  • 生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi,即:

机器学习算法基础问题(一)PCA|SVM|贝叶斯|决策树_第1张图片

常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

判别式模型根据求y即根据x来预测y

生成式模型求y则根据x,y的联合分布,反推最可能的p(y|x),多了一步。

1.2 贝叶斯分类器

贝叶斯分类器

https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%88%86%E7%B1%BB%E5%99%A8/1739590?fr=aladdin

此类基础的问题经常出现,贝叶斯概型,先验概率,后验概率等等。是机器学习很基础的问题。

贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

先验概率:

https://baike.baidu.com/item/%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87/6106649

先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。在贝叶斯统计推断中,不确定数量的先验概率分布是在考虑一些因素之前表达对这一数量的置信程度的概率分布。例如,先验概率分布可能代表在将来的选举中投票给特定政治家的选民相对比例的概率分布。未知的数量可以是模型的参数或者是潜在变量。

后验概率:

https://baike.baidu.com/item/%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87

后验概率是信息理论的基本概念之一。在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。

后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来

后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础 。

事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

1.3 相关贝叶斯题

下面关于贝叶斯分类器描述错误的是( )
正确答案: B   

  • 以贝叶斯定理为基础(正确)
  • 是基于后验概率,推导出先验概率
  • 可以解决有监督学习的问题(正确,需要标签了算概率)
  • 可以用极大似然估计法解贝叶斯分类器(正确,极大似然就相当于由先验求后验)

解析:第二个说反了,贝叶斯概型都是根据先验推导后验,求出联合分布,再算出后验概率,都是由结果找原因。

二、决策树与随机森林

2.1 决策树

https://www.cnblogs.com/xiemaycherry/p/10475067.html

决策树属于也只能非参数学习算法(非参数机器学习方法不需要存储参数)、可以用于解决(多)分类问题,回归问题。 回归问题的结果,叶子结点的平均值是回归问题的解。

机器学习算法基础问题(一)PCA|SVM|贝叶斯|决策树_第2张图片

  • 根节点:决策树具有数据结构里面的二叉树、树的全部属性
  • 非叶子节点 :(决策点) 代表测试的条件,数据的属性的测试
  • 叶子节点 :分类后获得分类标记
  • 分支: 测试的结果

决策树对抗过拟合的方法就是剪枝。

2.2 决策树的构造过程(training)

https://www.jianshu.com/p/655d8e555494

基于信息熵的构造

当选择某个特征作为节点时,我们就希望这个特征的信息熵越小越好,那么不确定性越小

在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量。

https://www.e-learn.cn/content/qita/1223365

2.3 随机森林

随机森林的随机性体现在下面哪些?

  • 决策树的个数随机(不对,因为决策树的个数已经被固定好了)
  • 决策树深度的随机(不正确,两个随机性不来自于此)
  • 选取特征的随机(正确,树中每个节点的分裂属性集合也是随机选择确定的)
  • 选取训练样本的随机(正确,训练样本随机选择,有放回的抽样。与boosting区分:boosting是每轮都一样,但是权重不同)

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

随机森林相当于bagging,Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。 这是机器学习中常规策略的一个例子,被称为模型平均(modelaveraging)。采用这种策略的技术被称为集成方法,用于减少泛化误差。(bagging与boosting的区别见后续博文)

如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集。

随机森林优点:

  • a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合
  • b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力
  • c. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化
  • d. 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数
  • e. 在创建随机森林的时候,对generlization error使用的是无偏估计
  • f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量
  • g. 在训练过程中,能够检测到feature间的互相影响
  • h. 容易做成并行化方法
  • i. 实现比较简单

三、协同滤波

https://blog.csdn.net/qq_34555202/article/details/81909144

3.1 协同滤波

协同过滤是利用集体智慧的一个典型方法。推荐系统的首要问题是了解你的用户,然后才能给出更好的推荐。

概念:协同过滤一般是在海量的用户中发掘出一小部分和你品位(偏好)比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。

四、经典算法

4.1 PCA算法

下面关于主分量分析(PCA)的描述错误的是( )?

  • 是一种非线性的方法(错误,PCA是线性映射的方法)
  • 是一种对数据集降维的方法(正确,PCA,主成分分析,用于降维)
  • 它将一组可能相关的变量变换为同样数量的不相关的变量(正确,如果相关,则PCA可以从中找出主成分并且忽略掉类似的部分)
  • 它的第一个主分量尽可能大的反映数据中的发散性(正确,第一个维度是散的最开的维度)

解析:PCA是线性变换。

PCA与SVD

区别与联系:

https://blog.csdn.net/wangjian1204/article/details/50642732

PCA的中文名叫做主成分分析,是降维和去噪的一种重要方法。PCA选取包含信息量最多的方向对数据进行投影。其投影方向可以从最大化方差或者最小化投影误差两个角度理解

PCA要求分解后两个矩阵值一样,C=VLV',其中V是正交矩阵。

SVD分解后两个正交矩阵可以不一样,S=UXV',其中U和V是正交矩阵。

SVD是另一个方向上的主成分,PCA只是单方向上的主成分。PCA会丢失一定的数据。

4.2 SVM

 下面关于支持向量机(SVM)的描述错误的是( )?

  • 是一种监督式学习的方法(正确,需要标签样本)
  • 可用于多分类的问题(正确,多个超平面)
  • 是一种生成式模型(错误,是判别式模型,因为由因索果,直接训练模型。不是生成模型的由果索因)
  • 支持非线性的核函数(正确)

logistic与SVM错误的是

  • SVM的目标是结构风险最小化【正确,支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷】
  • SVM有效避免过拟合(错误,SVM也存在过拟合的问题,特别运用核函数的时候)
  • logistic回归可以预测事件发生概率的大小(正确)
  • logistic回归是为了目标函数最小化后验概率(这点存疑,需要研究了logistic回归之后才能知道,最小化先验概率?)

准确率与召回率

Precison,与recall

准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量,下面关于召回率描述正确的是( )
正确答案: C   
衡量的是提取出的正确信息多少是准确的
召回率 = 提取出的正确信息条数 / 提取出的信息条数
召回率 = 提取出的正确信息条数 / 样本中相关的信息条数
召回率 = 提取出的正确信息条数 / 样本中总的信息条数

解析:这个挺简单的,因为博主前段时间还在做多标签分类,经常与这几个指标打交道。类比警察抓小偷。

Precision查准率,相当于 抓到的真小偷/抓到的所有人

Recall查全率,相当于 抓到的真小偷/ 所以小偷

输出多标签分类模型每class指标OP,OR,OF1,CP,CR,CF1

KNN近邻方法

一般情况下,KNN最近邻方法在( )情况下效果最好
正确答案: C   (有争议吧,应该是样本出现团状分布的时候效果较好)
样本呈现团状分布
样本呈现链状分布
样本数量较大
样本数量较小

KNN算法

https://baike.baidu.com/item/%E9%82%BB%E8%BF%91%E7%AE%97%E6%B3%95/1151153?fr=aladdin

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,

KNN算法对于样本不均的问题很难处理,比如只有1个A类,其他9个B类,即使很接近A,但是最近的三个肯定是,A,B,B,就无法处理样本不均的问题。

五、线性回归

7.1 最小二乘法

给定数据集D = {(x1,y1), (x2,y2), …, (xn,yn)},其中xi是p维的输入数据,yi对应的标签。要求通过“线性回归”方法来学得一个线性模型。

1) 请写出线性模型的的预测函数;

2) 请描述如何使用“最小二乘法”来进行参数估计,请写出主要公式推导;

解析:

https://blog.csdn.net/u011026329/article/details/79183114

你可能感兴趣的:(机器学习)