模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法

模式识别与机器学习-国科大2021-2022秋季学期课程

  • 写在前面
  • 习题解答参考
  • 模式识别经典算法
    • 线性判别分析
      • 感知器算法(赏罚机制)
      • 贝叶斯决策问题
        • 贝叶斯最小错误率判别
        • 贝叶斯最小风险判别
      • 正态分布模式的贝叶斯分类器
      • 线性判别函数
    • 特征提取与降维
      • PCA主成分分析(K-L变换)
      • Fisher线性判别
  • 机器学习经典模型
    • 支持向量机
      • 硬间隔支持向量机
    • 逻辑回归模型
    • 隐马尔科夫模型
  • 聚类算法
    • 基本理论
    • 经典聚类算法
      • K-means
      • 高斯混合模型GMM
      • DBSCAN
    • 降维
      • 多维缩放MDS
      • 等距离映射ISOMAP
      • 全局嵌入方法与局部嵌入方法
  • 半监督学习
    • 三个假设
    • 多视角学习
  • 概率图模型
    • 经典概率图
  • 集成学习
    • 基本理论
      • 过拟合与欠拟合
      • 偏差和方差
    • 集成学习算法
      • Bootstrap
      • Bagging, Bootstrap aggregating
      • Boosting
      • Adaboost

声明: 部分图片来自于课程讲义

写在前面

本文仅作为课程的总结,可以作为考试复习的大纲,其中包含一些习题或者是往年的考试题目,作为练习,文中以[例题]样式标明。虽然大多是为了考试,还是加入了一些概念、推导,甚至是讨论、困惑,作为点缀和“警示”。

整理的顺序较乱,但已经尽力而为,大致是按照授课顺序整理的(整个课程的授课顺序就很迷惑,没有主线,可能是因为能讲的太多太杂)。

习题解答参考

声明:个人作业,仅供参考,请勿保存,禁止在其他网站转载!如有错误请务必在评论区指出,或联系[email protected],十分感谢!
https://blog.csdn.net/sunzhihao_future/article/details/122315786

模式识别经典算法

线性判别分析

感知器算法(赏罚机制)

贝叶斯决策问题

贝叶斯最小错误率判别

贝叶斯最小错误率判别:利用模式集的统计特性来分类,以使分类器发生错误的概率最小。对于两类模式集的分类,要确定 x x x是属于 ω 1 \omega_1 ω1类还是 ω 2 \omega_2 ω2类,要看 x x x是来自于 ω 1 \omega_1 ω1类的概率大还是来自 ω 2 \omega_2 ω2类的概率大。
[例题]
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第1张图片
更正:预测特征为 A = 0 , B = 1 A=0, B=1 A=0,B=1的邮件是否为垃圾邮件。
[例题]
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第2张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第3张图片

贝叶斯最小风险判别

贝叶斯最小风险判别:当考虑到对于某一类的错误判决要比对另一类的判决更为关键时,就需要把最小错误概率的贝叶斯判别做一些修正,提出条件平均风险 r j ( x ) r_j(x) rj(x)。对M类问题,如果观察样本被判定属于 ω j \omega_j ωj类 ,则其条件平均风险为 r j ( x ) = ∑ i = 1 M L i j P ( ω i ∣ x ) r_{j}(x) = \sum_{i=1}^M L_{ij} P(\omega_i|x) rj(x)=i=1MLijP(ωix),其中 L i j L_{ij} Lij为将本应属于 ω i \omega_i ωi类的模式判别成属于 ω j \omega_j ωj类的是非代价。

[例题]
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第4张图片
更正:其中 λ i j \lambda_{ij} λij表示将本应属于 ω i \omega_i ωi类的模式判别成属于 ω j \omega_j ωj类所带来的风险损失。

正态分布模式的贝叶斯分类器

两类问题且其类模式都是正态分布的情况:
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第5张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第6张图片

线性判别函数

对于 M M M类模式的分类,多类情况1需要 M M M个判别函数,而多类情况2需要 M ∗ ( M − 1 ) / 2 M*(M-1)/2 M(M1)/2个判别函数,当 M M M较大时,后者需要更多的判别式(这是多类情况2的一个缺点)。

采用多类情况1时,每一个判别函数都要把一种类别的模式与其余 M − 1 M-1 M1种类别的模式分开,而不是将一种类别的模式仅与另一种类别的模式分开。由于一种模式的分布要比 M − 1 M-1 M1种模式的分布更为聚集,因此多类情况2对模式是线性可分的可能性比多类情况1更大一些,这是多类情况2的一个优点。

特征提取与降维

PCA主成分分析(K-L变换)

一般特征的散布矩阵准则:
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第7张图片

Fisher线性判别

考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别。但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开。

如何根据实际情况找到一条最好的、最易于分类的投影线,这就是Fisher判别方法所要解决的基本问题。
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第8张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第9张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第10张图片

机器学习经典模型

支持向量机

硬间隔支持向量机

Optimal Margin Classier: Dual Solution
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第11张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第12张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第13张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第14张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第15张图片
Linearly Separable SVM (Dual)
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第16张图片
[例题]
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第17张图片

逻辑回归模型

隐马尔科夫模型

[例题]
假设有3个盒子,分别装有不同数量的苹果(记为A)和桔子(记为O),其中盒子一中放有2个A,2个O;盒子二中放有3个A,1个O;盒子三中放有1个A,3个O;每次随机选择一个盒子并从中抽取一个水果,观测并记录看到的水果是哪种。但不幸的是,忘记去记录所选的盒子号码,只记录了每次看到的水果是A还是O。
(1) 请用HMM模型描述上述过程。
(2) 假如观测到水果序列为 x = {A,A,O,O,O},请给出最佳的盒子序列。
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第18张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第19张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第20张图片
[例题]
在下图所示的HMM模型中:
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第21张图片

(1)采用前向算法计算序列“AGTT”出现的概率。
(2)计算“TATA”最可能出现的状态序列。
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第22张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第23张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第24张图片

聚类算法

基本理论

Minkowski距离:
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第25张图片
余弦相似度:
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第26张图片

经典聚类算法

K-means

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第27张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第28张图片
如何选择K?
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第29张图片
当不同的簇之间具有不同的尺寸、密度或者非球形时,K-means聚类效果不好。

高斯混合模型GMM

DBSCAN

DBSCAN是基于密度的聚类算法,其核心思想是将密度可达的点聚类为一个簇。
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第30张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第31张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第32张图片

降维

多维缩放MDS

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第33张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第34张图片

等距离映射ISOMAP

测地线距离(Geodesic Distance)
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第35张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第36张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第37张图片

全局嵌入方法与局部嵌入方法

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第38张图片

半监督学习

通用想法:同时利用有标注数据和无标注数据学习。

三个假设

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第39张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第40张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第41张图片

多视角学习

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第42张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第43张图片

概率图模型

经典概率图

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第44张图片

[例题]
给定如下概率图模型,其中变量X2,X4 为已观测变量,请问变量量X1,X5 是否独立? 并用概率推导证明之.
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第45张图片

集成学习

基本理论

No Free Lunch Theorem:没有任何学习算法可在任何领域总是产生最准确的学习器。
Occam‘s Razor:如无必要,勿增实体。

过拟合与欠拟合

当模型本身过于复杂时,特征和类别之间的关系中所有的细枝末节都被捕捉,主要的趋势反而在乱花渐欲迷人眼中没有得到应有的重视,导致过拟合(overfitting)的发生。反之,如果模型过于简单,它不仅没有能力捕捉细微的相关性,甚至连主要趋势本身都没办法抓住,这样的现象就是欠拟合(underfitting)。
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第46张图片

偏差和方差

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第47张图片
偏差来源于模型中的错误假设。偏差过高就意味着模型所代表的特征和标签之间的关系是错误的,对应欠拟合现象;
方差描述的是模型通过学习拟合出来的结果自身的不稳定性,方差过高意味着模型对数据中的噪声也进行了建模,对应着过拟合现象。

集成学习算法

Bootstrap

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第48张图片

Bagging, Bootstrap aggregating

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第49张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第50张图片
在这里插入图片描述

Boosting

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第51张图片

Adaboost

模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第52张图片
模式识别与机器学习(国科大2021-2022秋季学期课程)-基础概念及算法_第53张图片

你可能感兴趣的:(机器学习基础知识,机器学习,算法,支持向量机)