机器学习算法笔记

这是我的第一篇笔记,主要用来归纳几种经典的机器学习算法的思想、适用性、优缺点等。主要是失业在家,需要每天给自己点任务,接受大家监督。

序言

一些基础知识的引入,但是并没有递进关系。

判别式和生成式模型

机器学习方法按照训练数据有无标签将算法分成有监督和无监督的算法,这个概念浅显易懂就不多说。但是最近刷互联网公司的真题时多次预测判别式和生成式模型,就有必要提一提。判别式模型和生成式模型都是有监督的学习方法,二者的区别就是判别式模型是对条件分布P(Y|X)进行建模,而生成式模型是对联合分布P(X,Y)进行建模。

常见的生成式模型有混合高斯模型(Gaussian mixture model, GMM)、朴素贝叶斯(Naive Bayes)、隐马尔科夫模型(Hidden Markov Model,HMM) 等。

常见的判别式模型有支持向量机(Support Vector Machine,SVM)、逻辑回归模型(Logistic Regression、LR)、感知机、最大熵模型(Maximum Entropy Model,MAxEnt),神经网络,线性判别分析(Linear Discriminant Analysis,LDA)等。

接下来的笔记内容尽量能囊括以上所有的算法。

偏差和方差

先来一下浅显易懂的概念:

  • 偏差(bias): 偏差用来衡量预测值和真实值之间的偏离程度。
  • 方差(variance): 方差用来衡量预测数据间的离散程度。

    再来一张很经典的图:
    机器学习算法笔记_第1张图片
    偏差和方差.png

    靶心是真实值,蓝色点点是预测值,四个靶子分别代表四种情况。
    偏差和方差与过拟合和欠拟合的关系是什么呢?
  1. 高偏差对应着欠拟合,此时模型对于训练和测试数据得到的误差都很大;
  2. 高方差对应着过拟合,此时模型在训练集上表现很好,但是在测试集上表现很差。

过拟合和欠拟合

过拟合和欠拟合就不需要过多解释,以下介绍如何解决模型过拟合或者欠拟合的问题:

过拟合: 可以增加数据样本量
减少数据的特征个数(联想决策树剪枝)、使用正则化、提前终止模型的训练等
欠拟合: 增加数据的特征个数、减少正则化系数的值或者不使用正则化系数、添加多项式特征、增加训练次数
基础知识大概就这么多了吧,接下来就要开始写基础算法了。

你可能感兴趣的:(机器学习算法笔记)