【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考

本文为学校课程《机器学习》中老师给出的一些有关机器学习的简答题的详细解答,可供复习参考,基本答案全是正确的。

目录

  • 什么是判别式模型和生成式模型,并且举例说明各自包含哪些典型的机器学习模型?
  • L1 和 L2 的正则化的区别
  • 数据归一化与中心化有什么区别
  • 请描述 Adaboost 算法的主要思想,并用伪代码写出算法过程
  • 在训练机器学习模型时,为何经常对数据做归一化?哪些算法不需要做归一化,哪些算法需要做归一化?
  • 简单说下有监督学习和无监督学习的区别?
  • Logistic 回归与线性回归的区别与联系是什么
  • 什么是过拟合与欠拟合,防止过拟合有些常用的方法
  • 请解释什么是泛化能力?
  • 对于一个二类分类问题,假设已经建好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计就判别为 1,否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化
  • 什么是信息熵?信息增益如何计算?
  • 简述集成思想和 bagging 和 adaboost 异同。
  • 简述 ID3 的优缺点,以及决策树中如何防止过拟合。
  • 简述基于密度的聚类算法 DBSCAN 的思想与过程。
  • 什么是 ROC 曲线与 Precision‐recall 曲线?
  • 阐述 PCA 的主要思想,并说明其计算过程。
  • 深度神经网络模型中为什么要引入线性激活函数
  • 主流的降维算法有哪些,简要描述这些算法的思想?
  • 如何理解朴素贝叶斯模型中的“朴素”?
  • 请描述最大似然算法的主要思想,写出对数似然公式,并描述使用极大似然函数估计值的算法过程
  • 高斯混合模型是如何定义的,请尝试写出其数学公式。
  • 请描述EM算法求解高斯混合模型的过程。
  • 概率图模型中的两类主任务是推理与学习,请解释之
  • 请例举几种有向图模型与无向图模型

什么是判别式模型和生成式模型,并且举例说明各自包含哪些典型的机器学习模型?

在机器学习中,对于有监督学习可以将其分为两类模型:判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第1张图片

  • 生成模型:朴素贝叶斯,混合高斯模型,隐马尔可夫模型HMM,贝叶斯网络,Sigmoid belief Networks,马尔科夫随机场,深度信念网络DBN,LDA
  • 判别模型:1.线性回归 2.逻辑回归 3.线性判别分析 4.支持向量机SVM 5.决策树 6.神经网络NN 7.高斯过程 8.条件随机场CRF 9.KNN 10.感知机 11.boosting方法
    机器学习中的判别式模型和生成式模型

L1 和 L2 的正则化的区别

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第2张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第3张图片
(1)L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;
(2)L2正则化可以防止模型过拟合,在一定程度上,L1也可以防止过拟合,提升模型的泛化能力;
(3)L1(拉格朗日)正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;
(4)L2(岭回归)正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则.


数据归一化与中心化有什么区别

两种归一化:(1)最大最小规范化(2)Zscore标准化
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第4张图片

  1. 数据归一化旨在将数据缩放到相同的比例,通常是将数据转换为0和1之间的范围或者-1和1之间的范围。数据中心化旨在将数据转换为均值为0,方差为1的正态分布。
  2. 数据归一化可应用于任何数据类型,包括连续值和离散值。数据中心化通常仅适用于连续值。
  3. 数据归一化可提高机器学习算法的收敛速度,特别是对于梯度下降等需要迭代计算的算法。数据中心化可提高特征的稳定性和可解释性,减少异常值的影响。
  • 中心化(又叫零均值化):是指变量减去它的均值。其实就是一个平移的过程,平移后所有数据的中心是(0,0)

请描述 Adaboost 算法的主要思想,并用伪代码写出算法过程

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第5张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第6张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第7张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第8张图片


在训练机器学习模型时,为何经常对数据做归一化?哪些算法不需要做归一化,哪些算法需要做归一化?

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第9张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第10张图片


简单说下有监督学习和无监督学习的区别?

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对样本集外的数据进行标记(分类)预测,相当于有明确的分类目标。有监督学习可分为回归和分类。

  • 通俗的来说:有监督学习就是训练样本的标记信息是已知的,我们完成一个分类任务时,我们是知道要分为哪些类的,只是对数据进行提取属性再直接分类就好。
    无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识,所有的标记(分类)都是未知的。无监督学习的典型就是聚类。
  • 通俗的来说:无监督学习就是训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。再通俗来讲就是,当我们想要完成一个分类任务时,我们完全不知道应该分为几类,具体的类别也是未知的。

Logistic 回归与线性回归的区别与联系是什么

  • 任务定位:线性回归 用于回归任务;逻辑回归用于分类任务
  • 输出值: 线性回归输出连续值;逻辑回归输出概率值;本质是因为逻辑回归使用了sigmod函数进行了映射 ,将值域映射到(0,1),在二类任务中,若大于0.5,则为某个类,小于0.5,为另一类。
  • 损失函数:线性回归采用MSE损失函数,逻辑回归采用交叉熵损失函数。
    【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第11张图片

什么是过拟合与欠拟合,防止过拟合有些常用的方法

过拟合:欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。
欠拟合:过拟合是指训练误差和测试误差之间的差距太大。换句换说,就是模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背"(记住了不适用于测试集的训练集性质或特点),没有理解数据背后的规律,泛化能力差。
防止过拟合:
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第12张图片

  1. 获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法
  2. 采用合适的模型(控制模型的复杂度)
  3. 降低特征的数量
  4. L1 / L2 正则化
  5. Dropout
  6. Early stopping(提前终止)
    欠拟合、过拟合及如何防止过拟合

请解释什么是泛化能力?

是指机器学习算法对新鲜样本的适应能力。 学习的目的是学到隐含在数据背的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
机器学习中的泛化能力


对于一个二类分类问题,假设已经建好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计就判别为 1,否则为 0: 如果现在修改阈值为0.6,那么关于分类模型的查准率与查全率有什么变化

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第13张图片
相同题目


什么是信息熵?信息增益如何计算?

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第14张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第15张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第16张图片


简述集成思想和 bagging 和 adaboost 异同。

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第17张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第18张图片
相同:

  • Baggging 和adaBoost都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。
    相异:
    1)样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
    Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
    2)样例权重:Bagging:使用均匀取样,每个样例的权重相等
    Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
    3)预测函数:Bagging:所有预测函数的权重相等。
    Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
    4)并行计算:Bagging:各个预测函数可以并行生成
    Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
  1. 思想:Bagging:Bagging的途径是降低 方差。是要降低过拟合。因为Bagging是并行的生成一堆决策树,这些决策树可以不做剪枝。它其实是生成了一堆 强学习器。也就是每个学习器都会有过拟合的问题,但是多个组合在一起,可以降低过拟合。
    Boosting:Boosting的途径是降低 偏差。是要降低欠拟合。因为Boosting,包括Adaboost和GBDT,都是生成了一堆弱学习器,甚至是只有一层的决策树(这也是为什么叫做树桩)。它是串行的生成一系列的弱学习器,但是彼此之间能够相互学习。
    Bagging和Boosting的区别

简述 ID3 的优缺点,以及决策树中如何防止过拟合。

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第19张图片
在这里插入图片描述ID3的优点:
• 1.假设空间包含所有的决策树,搜索空间完整。
• 2.健壮性好,不受噪声影响。
• 3.可以训练缺少属性值的实例。
总的来说,就是理论清晰、方法简单、学习能力较强【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第20张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第21张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第22张图片


简述基于密度的聚类算法 DBSCAN 的思想与过程。

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第23张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第24张图片


什么是 ROC 曲线与 Precision‐recall 曲线?

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第25张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第26张图片
机器学习之类别不平衡问题 (2) —— ROC和PR曲线
ROC曲线和PR曲线


阐述 PCA 的主要思想,并说明其计算过程。

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第27张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第28张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第29张图片
在这里插入图片描述
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第30张图片


深度神经网络模型中为什么要引入线性激活函数

因为神经网络中每一层的输入输出都是一个线性求和的过程,下一层的输出只是承接了上一层输入函数的线性变换,所以如果没有激活函数,那么无论你构造的神经网络多么复杂,有多少层,最后的输出都是输入的线性组合,纯粹的线性组合并不能够解决更为复杂的问题。而引入激活函数之后,我们会发现常见的激活函数都是非线性的,因此也会给神经元引入非线性元素,使得神经网络可以逼近其他的任何非线性函数,这样可以使得神经网络应用到更多非线性模型中。
神经网络激活函数的作用和原理?有没有形象解释


主流的降维算法有哪些,简要描述这些算法的思想?

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第31张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第32张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第33张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第34张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第35张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第36张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第37张图片


如何理解朴素贝叶斯模型中的“朴素”?

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第38张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第39张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第40张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第41张图片

为什么朴素贝叶斯定理会被叫做朴素的


请描述最大似然算法的主要思想,写出对数似然公式,并描述使用极大似然函数估计值的算法过程

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第42张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第43张图片


高斯混合模型是如何定义的,请尝试写出其数学公式。

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第44张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第45张图片
高斯函数


请描述EM算法求解高斯混合模型的过程。

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第46张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第47张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第48张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第49张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第50张图片


概率图模型中的两类主任务是推理与学习,请解释之

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第51张图片【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第52张图片


请例举几种有向图模型与无向图模型

【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第53张图片
【机器学习】【期末复习】有关机器学习的简答题可供期末复习参考_第54张图片

你可能感兴趣的:(总结反思,学业课程,机器学习,人工智能,python,数据挖掘,scikit-learn)