【机器学习】第六章——概率无向图模型(未完待续)

系列文章目录

这学期选修了学习机器课程,希望记录下相关笔记和实验,小伙伴们可以跟随我的系列文章一起学习,系统深入地了解机器学习。
学习笔记:
【机器学习】第一章——机器学习分类和性能度量
【机器学习】第二章——EM(期望最大化)算法
【机器学习】第六章——概率无向图模型

实战系列:
【机器学习】实战系列一——波士顿房价预测(一文学会)
【机器学习】实战系列二——梯度下降(一文学会)
【机器学习】实战系列三——支持向量机(一文学会)
【机器学习】实战系列四——聚类实验(一文学会)
【机器学习】实战系列五——天文数据挖掘实验(天池比赛)


文章目录

  • 系列文章目录
  • 一、简介
  • 概率无向图模型
    • 成对马尔科夫性
    • 局部马尔科夫性
    • 全局马尔科夫性
    • 概率无向图模型
  • 因子分解
    • 最大团
    • 因子分解
    • Hammersley-Clifford定理
    • 吉布斯分布
    • 势能函数
  • 逻辑斯蒂回归模型
    • 对数线性模型
    • 逻辑斯蒂函数
    • 逻辑斯蒂回归模型
    • 总结
  • 最大熵模型
    • 基本思想
    • 最大熵原理


一、简介

概率图模型:是一种用图结构来描述多元随机变量之间条件独立关系的概率模型。简称图模型。

图中每一个节点表示一个随机变量或一组随机变量,节点之间的边表示这些变量之间的概率关系。
概率图模型分为:有向图模型无向图模型

概率无向图模型

成对马尔科夫性

设u和v是无向图G中任意两个没有边连接的节点,其他所有节点记为O,节点u,v和O分别对应随机变量xu,xv,xo,给定随机变量组xo的条件下随机变量xu和xv条件独立,即:
在这里插入图片描述
我很就可以用上面这个表达式表示条件独立。或者说满足这样的条件表达式我们可以说它满足马尔科夫性。

局部马尔科夫性

设v∈V是无向图G中任意一个结点(下图红点),W是V有边连接的所有节点(黑点),O是V,W以外的其他所有结点(白点)。V,W和O对应的随机变量分别为Xv,Xw和Xo。
【机器学习】第六章——概率无向图模型(未完待续)_第1张图片

全局马尔科夫性

【机器学习】第六章——概率无向图模型(未完待续)_第2张图片
红色是C,C将AB分割。

概率无向图模型

设有联合概率分布P(Y),由无向图G=(V,E)表示,V是结点集,E是边集,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔科夫性,则称此联合概率分布为概率无向图模型或马尔可夫随机场。

因子分解

无向图G中任何两个结点均有边相连的结点子集。

最大团

如果C是无向图G的一个团,并且不能再加进任何一个G的结点使其称为一个更大的团,则称此C为最大团。
【机器学习】第六章——概率无向图模型(未完待续)_第3张图片

因子分解

因子分解:将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数乘积形式的操作。

Hammersley-Clifford定理

【机器学习】第六章——概率无向图模型(未完待续)_第4张图片

吉布斯分布

【机器学习】第六章——概率无向图模型(未完待续)_第5张图片
两个最大团分别为{x1,x2,x3}和{x1,x3,x4}

势能函数

【机器学习】第六章——概率无向图模型(未完待续)_第6张图片
个人理解引入势能函数的目的是把概率无向图上的吉布斯分布转化为玻尔兹曼分布(联合概率分布)。

逻辑斯蒂回归模型

对数线性模型

利用特征函数以及参数的方式对势函数进行定义
势能函数:
在这里插入图片描述
对数线性模型可分为:逻辑斯蒂回归模型和最大熵模型
逻辑斯蒂回归模型本质上是分类模型
【思想】在线性回归模型的基础上,使用sigmoid函数,将线性模型的结果压缩到【0,1】之间,使其拥有概率意义,它可以将任意输入映射到【0,1】区间内,实现由值到概率的转换。
【优点】直接对分类的可能性建模,无需事先假设数据分布,避免了假设分布不准确带来的问题。由于是对分类的可能性进行建模,不仅能预测出类别,还可得到属于该类别的概率。

逻辑斯蒂函数

假设事件发生的概率为p,那么此事件不发生的概率为(1-p),则称p/(1-p)为此事件发生的几率。
定义logit§ :
在这里插入图片描述
取logit的反函数logistic函数即我们熟悉的sigmoid函数:

【机器学习】第六章——概率无向图模型(未完待续)_第7张图片
【机器学习】第六章——概率无向图模型(未完待续)_第8张图片sigmoid函数值域介于(0,1),常用作神经元的激活函数。

逻辑斯蒂回归模型

【机器学习】第六章——概率无向图模型(未完待续)_第9张图片
得出t(j几率比,机会比,优势比)的表达式:
在这里插入图片描述
引入参数向量和基函数重写逻辑斯蒂模型,目的是便于我们后面使用极大似然估计模型中的参数:
【机器学习】第六章——概率无向图模型(未完待续)_第10张图片
对于一个二分类数据集,我们写出它的似然函数,之后求对数:
【机器学习】第六章——概率无向图模型(未完待续)_第11张图片
我们在目标函数前面添一个负号,之后用梯度下降法求解参数w:
【机器学习】第六章——概率无向图模型(未完待续)_第12张图片

总结

采用极大似然法估计参数,并使用梯度下降法估计参数。

最大熵模型

基本思想

在学习概率模型时,所有可能的模型中熵的最大的模型是最好的模型;若概率模型满足一些约束,则在满足已知约束的条件集合中选择熵最大的模型。

最大熵原理

你可能感兴趣的:(机器学习,机器学习)