这篇读书笔记之所以拖了很久还是因为对概率和统计的知识不够熟悉,考研的时候考的数学二,不考概率论,就只复习了高数和线代,所以用了很多时间去补上概率统计的知识,资料包括统计学习方法、ISL和一些CSDN上的博客,我尽量结合这些内容按照西瓜书的顺序写下这篇笔记。
1.贝叶斯决策论
2.极大似然估计
3.朴素贝叶斯分类器
4.半朴素贝叶斯分类器
5.贝叶斯网
6.EM算法
两句话加一个公式描述什么是贝叶斯决策论(Bayesian decision theory)。
两句话:贝叶斯决策论就是基于概率和误判损失选择最优类别标记。获得概率的方法就是把对后验概率的求解转换为对类先验概率和类条件概率的求解。
一个公式:
其中P(c|x)是学习的目标后验概率,P(c)是先验概率,P(x|c)是类条件概率。
类先验(prior)概率P(c)的求解方法很简单,就是每种类别的样本在数据集中所占的比例。
类条件概率(class-conditional probability)P(x|c)可以通过极大似然估计来进行求解。
在讨论极大似然估计(Maximum Likelihood Estimation)之前,一句话带过为什么要求最大的后验概率(或最大的类条件概率)。根据《统计学习方法》,因为朴素贝叶斯法会将实例分到后验概率最大的类别中,为了使误判风险最小化,就要使该后验概率尽可能最大,即由期望风险最小化准则得到后验概率最大化准则。
为了求出最大的后验概率(根据贝叶斯决策论,在最大似然估计中实际上是求最大的类条件概率),我们假设类条件概率服从某种确定的概率分布形式,再对参数进行估计。假设P(x|c)被参数 θ \theta θ唯一确定,可以将P(x|c)记为P(x| θ \theta θ)。
求使类条件概率(似然函数 )最大的θ的步骤:
(1)写出似然函数
(2)似然函数取对数
(3)求导,令导数为0
(4)解出最佳参数θ
具体例子不再举。
在了解极大似然估计的同时,我还学习到求解最大后验概率的其他方法,比如最大后验估计,贝叶斯估计等。
极大似然估计把参数θ认为是一个未知的固定值,它使似然函数P(x|θ)最大;最大后验估计认为θ是个随机变量,服从某种分布
,除了考虑似然函数还要考虑参数本身的分布,θ要使P(x|θ)P(θ)最大;贝叶斯估计在最大后验估计的基础上再进一步,不是找出θ的特定值,而是估计θ的分布,此时P(x)不能再忽略。
朴素贝叶斯分类器(naive Bayes classifier)最大的特点就是采用了属性条件独立性假设(attribute conditional independence assumption),即对已知类别,所有属性相互独立。
可将之前的公式改写为:
d为属性数目, x i x_i xi为x在第i个属性上的取值。
朴素贝叶斯分类器的表达式为:
类先验概率可以用下列公式估计:
每个属性的类条件概率按如下方法估计:
离散属性:
连续属性(假定服从正态分布):
同时,为了解决因为某个属性值没有出现过而抹去其他属性信息的情况(使整个类条件概率等于0),常用拉普拉斯修正(Laplacian correction),具体公式如下:
N为训练集D中可能的类别数, N i N_i Ni为第i个属性可能的取值数。
简单来说就是半朴素贝叶斯分类器(semi-naive Bayes classifier)不再假设每个属性相互独立,而是允许属性之间有依赖关系。
其中*“独依赖估计”*(One-dependent Estimator)是最常用的一种半朴素贝叶斯分类器策略。“独依赖”是指每个属性在类别之外最多依赖于一个其他属性。
根据不同的父属性确定方式,会产生不同的独依赖分类器,常见的有超父独依赖分类器(SPODE)、TAN、平均独依赖分类器(AODE)。
超父就是指所有属性都依赖于同一个属性,也是最直接的做法。
TAN的构建步骤为:
AODE就是尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果。
贝叶斯网(Bayesian network)在半朴素贝叶斯分类器的基础上再进一步放开属性间的依赖限制。
贝叶斯网B由结构G和参数Θ两部分构成,即B=
贝叶斯网中典型的结构有:同父结构、V型结构、顺序结构。
并且属性间的关系有条件独立、边际独立等。
贝叶斯网学习的目标是使贝叶斯网有最短的描述,具体公式如下:
|B|为贝叶斯网的参数个数;f(θ)表示描述每个参数θ所需的字节数;而LL(B|D)是贝叶斯网的对数似然。
贝叶斯网训练好之后就能用来回答“查询”,即通过一些属性变量的观测值来推测其他属性变量的取值,这个过程叫做“推断”。
EM算法主要是解决“缺失值”问题,未观测变量的学名是“隐变量”。令X为已观测变量集,Z表示隐变量集,Θ表示模型参数。若想对Θ做极大似然估计,应最大化对数似然:
但Z是隐变量,无法求解上式。此时可以对Z计算期望,来最大化已观测数据的对数边际似然:
为了达到目的,用EM算法来估计参数隐变量,EM算法的基本思想是:若参数Θ已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之,若Z的值已知,则可方便的对参数Θ做极大似然估计(M步)。于是可迭代执行这两个步骤直至收敛。
后半部分内容写得比较简略,一方面是书上讲的比较浅,另一方面是自己理解比较浅,所以把最基本的点写出来就不再深入了。