bilibili-机器学习白板推导系列Q&A大纲

电子笔记 视频课

Introduction

Q:诠释概率的两个流派:()和()

A:频率派和贝叶斯派

Q:频率派的观点:

A:前提:假设N个样本X均由分布 P(x|θ) 生成, P(x|θ)是可从样本数据中中得到的经验分布
频率派将θ看作常数,使用最大似然估计常数θ的取值(P(x|θ)就是似然) – MLE
为简化计算,常对似然P(x|θ)取log,从而将各个样本的概率分布连乘转化为连加

Q:贝叶斯派的观点:

A:前提:假设N个样本X均由分布 P(x|θ) 生成
贝叶斯派认为θ是随机变量,服从先验分布p(θ),依据贝叶斯定理可求得在给定样本的条件下θ的概率分布表达式P(θ|X),使用最大后验估计变量θ的取值(P(θ|X)就是后验) – MAP

Q:频率派方法的核心:

A:优化问题,通过
a、设计model,包括概率模型和非概率模型;
b、计算目标函数
c、优化(最大化|最小化)

补充:损失函数 VS 代价函数 VS 目标函数

A:损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。
目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。
关于目标函数和代价函数的区别还有一种通俗的区别:
目标函数是最大化或者最小化,而代价函数是最小化

Q:贝叶斯派方法的核心:

A:求后验(Inference) --> 进一步转化为:求难求的积分常量 --> 提出精确推断、近似推断(进而分为确定性近似和随机近似)

Math Basics

Q:以高斯分布为例,使用极大似然估计参数μ,Σ的取值

A:推导Trick:在求另目标函数极大|极小的参数的过程中
1、与参数无关的项可以消掉
2、常数项可以消掉
3、求解析解:求另目标函数极大|极小的参数 等价于 求令目标函数梯度为0的参数

Q:有偏估计和无偏估计

A:判断条件:估计值的期望 是否等于 真实期望
均值估计为无偏估计,方差估计为有偏估计,无偏估计如下所示:
bilibili-机器学习白板推导系列Q&A大纲_第1张图片

Q:几何角度理解多维高斯模型的概率密度函数PDF

A:通过对方差矩阵矩阵执行特征分解,可的椭圆的表达式,其中椭圆长轴和短轴的长度a、b[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YhCCkLfl-1668761368962)(https://g.yuque.com/gr/latex?x-%5Cmu)] 分别等于(x-μ)在特征向量 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a6ddTYNK-1668761368972)(https://g.yuque.com/gr/latex?u_%7Bi%7D)] ui 上的投影长度,因此可得高斯分布是指数上的数字取不同值时的同心椭圆

Q:多维高斯模型在实际应用时的两个问题:

A:1. 参数 μ,Σ 的自由度为O(p^2)对于维度很高的数据其自由度太高。
解决方案:高自由度的来源是 Σ 有 p(p+1)/2 个自由参数,可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。
2. 第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。
解决方案:高斯混合GMM 模型。

Q: 已知联合概率分布,求对应的边缘概率分布和条件概率分布

Q:若X和Y之间满足线性关系,已知边缘概率分布P(X)和条件概率分布P(Y|X),求P(Y)和P(X|Y)

线性回归:

Q:最小二乘法

A:使用二范数定义的平方误差定义损失函数,通过令其梯度为0求得参数w的解析解
几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和

Q:在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差

Q:最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解

Q:最小二乘误差加上 L1 正则项后,等价于 Laplace 噪声先验。

Q:线性模型的三个特点:()、()、()

A: 线性(属性线性、系数线性和全局线性)、全局性和数据未加工

Q:列举线性模型的改进方案

A:通过打破线性模型的各个特点构成了机器学习的整个架构体系

线性分类

Q:线性分类与线性回归的关系:

A:通过(嵌套激活函数)或(降维)的方式可将线性回归问题转化为线性分类问题
激活函数:按输出值可分为硬分类和软分类
降维:将多维数据降至1维,通过设定阈值的方式划分类别

Q:线性分类的常用方法列举:

A:硬分类:直接输出观测值对应的类别
eg:(二分类问题,要求样本线性可分)
1. 线性判别分析【数据降为1维:类内即投影方差小,类间即投影距离大,即高内聚低耦合
2. 感知机模型【错误驱动
3. Hard-margin SVM【寻找到两类样本间隔最大的分类超平面
软分类:输出样本属于不同类别的概率,可依据概率方法的不同分为生成式和判别式
eg:生成式(根据贝叶斯定理先计算参数后验,再进行推断):
基本思路:
1. 引入类别先验分布,
二分类模型输出y服从二项伯努利分布;
多分类输出服从_Categorical Distribution
2. 假设每一类的分布(即似然P(x|y = k))服从某概率分布==
具体方法
1. 高斯判别分析【假设二分类模型输出y服从二项伯努利分布,每一类的分布P(x|y = k)是方差相同的高斯分布,最大化后验(正比于联合分布)联合分布的对数似然求得参数
2. 朴素贝叶斯分类器【在高斯判别分析的基础上,为简化计算,提出条件独立性假设,即在给定y的情况下,单个样本的属性特征相互独立
eg:判别式(直接对条件概率建模):
1. 逻辑回归(线性回归+sigmoid激活函数

降维

Q:降维的类别

A:可分为(直接降维)、(线性降维)和(非线性降维)
1. 直接降维:特征选择【直接从特征中挑选一部分使用】
2.线性降维:PCA【角度一: 对样本协方差矩阵进行特征值分解,对应的特征向量即为主成分;角度二: 对中性化后的矩阵执行SCD分解得到的特征向量即为主成分】、MDS
3. 非线性降维:流形(将投影面从平面变化为超曲面):Isomap、LLE

支持向量机SVM

Q:简述SVM的类别以及主要思想

A:SVM可分为(硬间隔SVM)、(软间隔SVM)和(kernel SVM)
1、硬间隔SVM:最大间隔分类器,定义最大间隔为离平面最近的点到超平面的距离【数据线性可分
2、软间隔SVM:在硬间隔SVM的基础上,允许一部分样本点不满足约束条件
3、核SVM:非线性变换 + 硬间隔SVM 【线性不可分数据

Q:简述核技巧:

A:为简化运算而引入,通过 将样本直接带入核函数函数求值 取代求非线性变换函数的内积

指数族分布

Q:指数族分布的基本性质

A:充分统计量、共轭和最大熵
1. 充分统计量指关于样本的函数,如均值、方差等,可用于压缩数据;对数配分函数的一阶导数为充分统计量的均值;二阶导数为充分统计量的方差
2. 共轭:可用于求后验过程中假设先验。若似然P(x|Z)有共轭先验P(Z),那么先验和后验P(Z|x)具有相同的分布形式
【补充:其他求后验的思路 - 使用精确推断、近似推断求后验】
4. 最大熵:即无信息先验,假设所有时间等可能发生 等价于 熵值最大

Q:贝叶斯定理中,先验概率的3种假设方法:

A:1、共轭:将P(Z)假设为与似然P(x|Z)共轭的分布
2、从最大熵的角度赋予无信息先验
3、Jerrif方法

概率图模型

Q:概率图模型的关注点:

A:概率图模型是对一个样本的多个特征维度建模,每个节点表示某个维度的特征

Q:概率图模型的内容:

A:概率图模型包括(表示)、推断、学习和决策四部分
1. 从表示的角度看
1. 当随机变量(即特征)离散时,概率图模型可分为有向图(又称贝叶斯网络)和无向图(又称马尔可夫网络/随机场);
注:此处应了解贝叶斯网络的三种典型图结构(体现条件独立性)和D划分、马尔可夫随机场最大团的概念
2. 当随机变量连续且服从高斯分布时,概率图模型为高斯图
2. 从推断(即求后验)的角度,目标是解决贝叶斯公式中的积分项难以求解的问题
1. 精确推断:
1. 变量消除法;核心思想为乘法分配律,方法缺点为节点的重复计算以及消除节点的次序难以确定
2. 信念传播(BP或Sum-product 算法);核心思想为存储变量消除法计算的中间结果
3. Junction Tree算法(Max-product算法);计算每个节点时只选取使得联合概率达到最大的节点
2. 近似推断:
1. Loop信念传播
2. 蒙特卡洛推断(随机近似):基于采样的随机近似算法,利用马尔可夫链收敛于平稳分布的性质,设计转移矩阵P,使得该平稳分布近似于目标分布
3. 变分推断(确定性近似):基于平均场理论,假设隐变量Z可分为M个划分,且每个划分相互独立 --> 进一步发展为SGVI随机梯度变分推断

Q:串联贝叶斯网络模型

A:贝叶斯网络模型可概述为:从单一到混合,从有限到无限(包括空间即随机变量从离散到连续和时间两个角度)
单一模型:Naive Bayes方法 [[#Q:线性分类的常用方法列举:]]
混合模型:高斯混合模型GMM
引入隐变量Z用来表示某个样本属于哪一个高斯分布,P(z)被建模为一个已知先验
+引入时间序列:马尔可夫链
a. 隐马尔可夫模型HMM:隐状态序列为马尔可夫链,且离散,符合观测独立假设+齐次马尔可夫假设Evaluation:求值-前向后向算法、Learning:求参数-EM算法、Decording:求隐状态序列-Viterbi算法
–> 进一步:最大熵马尔可夫模型MEMM:打破观测独立性假设
–> 进一步:条件随机场CRF:将隐变量序列由有向链变为无向链
–> 进一步:玻尔兹曼机:带隐节点的马尔可夫随机场
–> 进一步:受限玻尔兹曼机(假设节点组内独立,组间连接)
+引入神经网络的思想
–> Sigmoid Belief Network: 醒眠算法
–> 进一步:Deep Belief Network:采用pretraing+fineturning的思想
–> 进一步:Deep 玻尔兹曼机
–> 变分自编码器(变分推断+自编码器)
–> 生成对抗网络GAN(基于重采样Trick)
–> 流模型:通过逐步拆解的方式跳过后验intractable问题
b. 线性动态系统LDS又称Kalmen Fitter:隐状态序列连续且服从线性分布(高斯分布 )
c. 粒子滤波Particle Fitter:隐状态序列连续,服从非线性分布
连续随机变量:高斯网络
a. 高斯贝叶斯网络:基于Kalmen Fitter
b. 高斯马尔可夫网络:

Q:简述EM算法

A:用途:用于解决具有隐变量的混合模型的极大似然估计问题
算法流程:随机确定theta初始值的前提下,E步:求期望表达式,M步:令期望表达式达到最大,重复EM步直到收敛。

你可能感兴趣的:(人工智能)