机器学习期末考试复习

目录

  • 一、KNN分类算法与K-means聚类算法
  • 二、在正则化时不同范数之间的区别
  • 三、监督学习与非监督学习有哪些
  • 四、高偏差(Bias)与高方差(Variance)
    • 4.1 诊断偏差与方差(Diagnosing bias vs. variance)
    • 4.2 从训练集和验证集上看是高偏差还是高方差的原因
    • 4.3 当知道是高方差(过拟合)还是高偏差(欠拟合)的原因后,就可以知道用什么方法来解决。
    • 4.4 出现不同的问题时,解决途径是不同的,如果用错了方法,有可能会得到相反的效果。
    • 4.5选择正则化参数的方法
    • 4.6 高偏差与欠拟合,高方差与过拟合的关系
  • 五、支持向量机(Support Vector Machine)
  • 六、降维处理
    • 6.1 为什么需要降维处理
    • 6.2 降维的方法
  • 七、一些统计方法
  • 八、练习:垃圾邮箱分类器
  • 九、三种数据集的作用与区别

 
 

一、KNN分类算法与K-means聚类算法

机器学习期末考试复习_第1张图片
聚类算法的过程:
机器学习期末考试复习_第2张图片

二、在正则化时不同范数之间的区别

机器学习期末考试复习_第3张图片

  • L1范数正则化会让参数向量的许多元素趋向于0,使得大部分特征失去对优化目标的贡献,是让有效特征变得稀疏(sparse)的L1正则化。(Lasso)

  • L2范数正则化的结果会让参数向量中的大部分元素都变得很光滑(smooth),压制了参数之间的差异性。(Ridge)

三、监督学习与非监督学习有哪些

监督学习 无监督学习
KNN算法 聚类算法(最经典,包括很多聚类算法)
线性回归算法(Linear Regression) 主成分分析 (PCA)
逻辑回归算法(Logistic Regression) 高斯混合模型
支持向量机(Support Vector Machine)
决策树和随机森林(Decision Tree and Random Forests)
神经网络(Neural Network)

四、高偏差(Bias)与高方差(Variance)

4.1 诊断偏差与方差(Diagnosing bias vs. variance)

  • 偏差:可以用模型预测的误差,用以描述模型的预测精度;

  • 方差:是每轮预测误差的范围(比如我第一次的得到的误差是0.5,第二次为1,那么方差就太大了),用以描述模型的稳定性。

4.2 从训练集和验证集上看是高偏差还是高方差的原因

机器学习期末考试复习_第4张图片
如上图所示,左边的一点表明训练集的误差与验证集的误差相当,说明是高偏差的缘故,右边的一点表明验证集的误差比训练集的误差要大很多,说明是高方差的缘故。

4.3 当知道是高方差(过拟合)还是高偏差(欠拟合)的原因后,就可以知道用什么方法来解决。

  • 什么是过拟合与欠拟合:简单来说,欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况;过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差。
  • 解决过拟合:增加训练数据集;使用正则化约束;减少特征数;调节参数和超参数;降低模型复杂度;提前结束训练(early stopping);使用 Dropout。
  • 解决欠拟合:增加特征数;调节参数和超参数;增加模型复杂度;降低正则化约束。

4.4 出现不同的问题时,解决途径是不同的,如果用错了方法,有可能会得到相反的效果。

  • If a learning algorithm is suffering from high bias, getting more training data will not help much.
  • If a learning algorithm is suffering from high variance, getting more training data is likely to help.

4.5选择正则化参数的方法

如下图,通过在训练集上测得损失函数最小的参数,并把它们放在交叉训练集上验证。表明到当正则化参数为0.08时效果最好。
机器学习期末考试复习_第5张图片

4.6 高偏差与欠拟合,高方差与过拟合的关系

机器学习期末考试复习_第6张图片

五、支持向量机(Support Vector Machine)

机器学习期末考试复习_第7张图片
机器学习期末考试复习_第8张图片
机器学习期末考试复习_第9张图片
机器学习期末考试复习_第10张图片
机器学习期末考试复习_第11张图片

六、降维处理

6.1 为什么需要降维处理

  • 数据压缩(Data Compression)
    如果发现两个数据在大致情况下呈现线性关系,那么可以由此降维进行数据压缩,这样的话可以使得数据采集者的工作量减少,同时便于模型的建立。
    机器学习期末考试复习_第12张图片

  • 数据可视化(Data Visualization)
    因为人只能想象三维一下的图像,因此,数据的可视化一定要将高维降为三维及其以下。但是要注意的是,降维之后的数据一定还是要能完整表达原数据的分布。

6.2 降维的方法

  • 主成分分析法(Principal Component Analysis(PCA))
    通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。找到一个超平面(由向量张成的空间),当数据的各个点映射到这个面上的误差最小,那么,这个面,就是最好的超平面。
  • 子集选择(Subset Selection)
    这个方法非常的暴力,即利用枚举的方式求得所有情况。如下图:
    机器学习期末考试复习_第13张图片
    红色点为当前k个variable能达到的最小二乘,灰色点为其他非最优的情况。(若k的时候求最优选择了某个variable,那么大于k的情况求最优不一定会选择该variable。)
  • 核方法降维(kernel method)——增维
    核方法是一类把低维空间的非线性可分问题,转化为高维空间的线性可分问题的方法。核方法不仅仅用于SVM,还可以用于其他数据为非线性可分的算法。核方法的理论基础是Cover’s theorem,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集。
  • 维度灾难的解决办法
    https://www.jianshu.com/p/867193608bbd

七、一些统计方法

  • booststrap——Sample n samples from the overall N samples with replacement
    步骤:
  1. 采用重采样技术从原始样本中抽取一定数量(自己给定)的新样本。
  2. 从新样本中计算我们需要估计的统计量。
  3. 重复上述步骤n次。
    …………

八、练习:垃圾邮箱分类器

如何将垃圾邮件过滤,一种办法是将垃圾邮件中一些所特定的特征项,如关键字buy, deal;……等当成一个特征,建立一个特征空间,即是输入,输出则是二分类0或者1。如下图:这样就当成一个二分类问题。
机器学习期末考试复习_第14张图片

九、三种数据集的作用与区别

  • 训练集用来训练模型,即确定模型的权重和偏置这些参数,通常我们称这些参数为学习参数。
  • 验证集用于模型的选择,更具体地来说,验证集并不参与学习参数的确定,也就是验证集并没有参与梯度下降的过程。验证集只是为了选择超参数,比如网络层数、网络节点数、迭代次数、学习率这些都叫超参数。比如在k-NN算法中,k值就是一个超参数。所以可以使用验证集来求出误差率最小的k。
  • 测试集只使用一次,即在训练完成后评价最终的模型时使用。它既不参与学习参数过程,也不参数超参数选择过程,而仅仅使用于模型的评价。

 
 
码字不易,觉得有帮助的话给个赞呗。笔芯。

你可能感兴趣的:(实验室)