稀疏贝叶斯学习

稀疏贝叶斯学习(SBL)是贝叶斯统计优化算法中十分重要的一类,它是在贝叶斯理论的基础上发展而来的。现在贝叶斯学习技术已应用到信息的智能检索,数据挖掘等领域。SBL 算法首先将未知的待估计参数向量看作符合某种先验分布的随机向量,并根据以往对所求参数的知识,确定先验分布;然后根据样本信息,运用贝叶斯规则,计算后验概率分布;最后综合先验信息和后验概率,做出对未知参数的推断。研究人员通过对先验认知与试验样本的深入分析和建模,提出了不同模型的学习算法。其中基于相关向量机(RVM)的监督学习是最热门的方向之一。

 

贝叶斯公式到贝叶斯参数学习

下面给出公式:

p ( θ ∣ x ) = p ( x ∣ θ ) p ( θ ) p ( x ) = p ( x ∣ θ ) p ( θ ) ∫ p ( x ∣ θ ) p ( θ ) d θ p(\theta \vert x) = \frac{p(x\vert \theta) p(\theta)}{p(x)} =\frac{p(x\vert \theta) p(\theta)}{\int p(x\vert \theta) p(\theta) \text{d}\theta}

p(θ∣x)= 

p(x)

p(x∣θ)p(θ)

​ 

 = 

∫p(x∣θ)p(θ)dθ

p(x∣θ)p(θ)

​ 

 

 

所表达的思想是通过观察样本信息,将先验概率密度通过贝叶斯规则转化为后验概率密度。用 x xx 表示随机观测向量,θ \thetaθ 表示未知参数,p ( θ , x ) = p ( x ∣ θ ) p ( θ ) p(\theta,x)=p(x\vert \theta) p(\theta)p(θ,x)=p(x∣θ)p(θ) 表示 x , θ x, \thetax,θ 的联合分布密度函数,p ( x ) p(x)p(x) 和 p ( θ ) p(\theta)p(θ) 分别表示它们的边缘概率密度。这些概率是未知的,通常是根据试验数据,背景知识,对基准分布做合理假设后估计得到的。

 

对连续随机变量 X XX,根据贝叶斯公式,参数 θ \thetaθ 的后验概率密度为:

p ( θ ∣ x 1 , x 2 , ⋯   , x n ) = p ( x 1 , x 2 , ⋯   , x n ∣ θ ) p ( θ ) ∫ p ( x 1 , x 2 , ⋯   , x n ∣ θ ) p ( θ ) d θ p(\theta \vert x_1,x_2,\cdots, x_n) =\frac{p(x_1,x_2,\cdots, x_n\vert \theta) p(\theta)}{\int p(x_1,x_2,\cdots, x_n\vert \theta) p(\theta) \text{d}\theta}

p(θ∣x 

1

​ 

 ,x 

2

​ 

 ,⋯,x 

n

​ 

 )= 

∫p(x 

1

​ 

 ,x 

2

​ 

 ,⋯,x 

n

​ 

 ∣θ)p(θ)dθ

p(x 

1

​ 

 ,x 

2

​ 

 ,⋯,x 

n

​ 

 ∣θ)p(θ)

​ 

 

 

这里 p ( x 1 , x 2 , ⋯   , x n ∣ θ ) p(x_1,x_2,\cdots, x_n\vert \theta)p(x 

1

​ 

 ,x 

2

​ 

 ,⋯,x 

n

​ 

 ∣θ) 是样本 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots, X_n )(X 

1

​ 

 ,X 

2

​ 

 ,⋯,X 

n

​ 

 ) 的条件概率密度,p ( θ ) p(\theta)p(θ) 为参数 θ \thetaθ 的先验概率密度,贝叶斯公式综合了先验知识与观测样本,体现了先验分布向后验分布的转化。

 

贝叶斯估计准则函数的一般形式为

R ( θ , θ ^ ) = E [ L ( θ , θ ^ ) ] R(\theta,\hat{\theta}) =\mathbb E[\mathcal L(\theta,\hat{\theta})]

R(θ, 

θ

^

 )=E[L(θ, 

θ

^

 )]

 

其中,R ( θ , θ ^ ) R(\theta,\hat{\theta})R(θ, 

θ

^

 ) 用于度量随机变量 θ \thetaθ 和 θ ^ \hat{\theta} 

θ

^

  之间的近似程度,L ( θ , θ ^ ) \mathcal L(\theta,\hat{\theta})L(θ, 

θ

^

 ) 称为损失函数。综合考虑先验概率密度函数和样本条件密度函数,进一步得到如下的近似式:

R ( θ , θ ^ ) = ∫ { ∫ L ( θ , θ ^ ) p ( x ∣ θ ) d x } p ( θ ) d θ R(\theta,\hat{\theta}) = \int \bigg\{ \int \mathcal L(\theta,\hat{\theta}) p(x\vert \theta) \text{d}x \bigg\} p(\theta)\text{d}\theta

R(θ, 

θ

^

 )=∫{∫L(θ, 

θ

^

 )p(x∣θ)dx}p(θ)dθ

 

贝叶斯参数估计将参数 θ \thetaθ 视为随机变量,并具有先验分布 p ( θ ) p(\theta)p(θ)。贝叶斯参数估计分三步进行:

 

首先,确定样本数据和未知参数先验分布,先验分布可以基于主观依据或者完全是主观推测;

其次,根据样本信息、先验分布以及概率论公式,计算出在已知样本条件下,未知参数的条件分布。该分布称为后验分布。

最后根据后验分布并依据给定的准则函数获得参数的估计。

在稀疏表示问题中,可将冗余字典或超完备基等效理解为网络拓扑结构,而获取的观测数据则可等效理解为训练样本集。

 

如图所示是贝叶斯参数学习的分类,参数化方法要求已知总体分布的形式,可以用较少的数据样本得到较精确的估计。但是在许多应用中事先并不知总体分布形式,或不满足标准分布,因此得到更广泛的应用的是核函数估计法。在稀疏表示问题中,对不同的应用场景和数据模型,应具体分析各变量之间的依赖关系,选用合适的先验假设和参数估计方法。

你可能感兴趣的:(人工智能)