统计学习方法

  • 统计学习的方法:
    • 监督学习
    • 非监督学习
    • 半监督学习
    • 强化学习

第一章 统计学习方法概论

1.2监督学习

  • 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
  • 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示
1.2.2问题的形式化
  • 监督学习分为学习和预测两个过程

1.3统计学习三要素

  • 方法=模型+策略+算法
1.3.1模型
  • 模型就是要学习的条件概率分布或者决策分布
1.3.2策略
  • 用一个损失函数或者代价函数来度量预测错误的程度
  • 损失函数
    • 0-1损失函数
    • 平方损失函数
    • 绝对损失函数
    • 对数损失函数
  • 模型f(X)关于训练数据集的平均损失称为经验风险或经验损失
  • 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失
  • 监督学习的两个基本策略:经验风险最小化与结构风险最小化
  • 经验风险最小化的策略认为经验风险最小的模型就是最优模型
  • 结构风险最小化(SRM)是为了防止过拟合的策略,等价于正则化
    • 结构风险在经验风险上加上表示模型复杂度的正则化项或罚项
1.3.3算法
  • 算法是指学习模型的具体计算方法

1.4模型评估与模型选择

1.4.1训练误差与测试误差
  • 损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就是学习方法评估的标准
  • 训练误差是模型关于训练数据集的平均损失
  • 测试误差是模型关于测试数据集的平均损失
  • 通常将学习方法对未知数据的预测能力称为泛化能力
1.4.2过拟合与模型选择
  • 当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大

1.5正则化与交叉验证

1.5.1正则化
  • 正则化是结构风险最小化策略的实现, 是在经验风险上加一个正则化项或罚项
    • 正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
  • 范数就是衡量向量的大小
  • 正则化符合奥卡姆剃刀(Occam’s razor)原理。应用于模型选择:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
    • 从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
1.5.2交叉验证
  • 将数据集分为三部分;
    • 训练集:训练模型
    • 验证集:模型的选择
    • 测试集:对学习方法的评估
  • 简单交叉验证
    • 数据集分为两部分:
      • 训练集 70%
      • 测试集 30%
    • 选出测试误差最小的模型
  • S折交叉验证
    • 首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型
  • 留一交叉验证
    • S折交叉验证的特殊情形是S=N,称为留一交叉验证,往往在数据缺乏的情况下使用(N是给定数据集的容量)

1.6泛化能力

1.6.1发话误差
  • 模型对未知数据预测的误差即为泛化误差。泛化误差越小,这种方法就越有效
1.6.2泛化误差上界
  • 训练误差小的模型,泛化误差也会小

1.7

  • 监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出
  • 监督学习方法又可分为判别方法生成方法
    • 生成方法由数据学习联合概率分布P(X, Y),然后求出条件概率模型P(Y | X)作为预测的模型,即生成模型:
      P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y | X) = \frac{P(X, Y)} {P(X)} P(YX)=P(X)P(X,Y)
      • 典型的生成模型有:
        • 朴素贝叶斯法
        • 隐马尔可夫模型
      • 特点:
        • 生成方法可以还原出联合概率分布P(X, Y),而判别方法则不能
        • 生成方法的学习速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型
        • 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用
    • 判别方法有数据直接学习决策函数f(X)或者条件概率分布P(Y | X)作为预测模型,即判别模型
      • 典型的判别模型方法:
        • k临近法
        • 感知机
        • 决策树
        • 逻辑斯谛回归模型
        • 最大熵模型
        • 支持向量机
        • 提升方法
        • 条件随机场
      • 特点:
        • 判别方法直接学习的是条件概率P(Y | X)或决策函数f(X),直接面对预测,往往学习的准确率更高
        • 由于直接学习P(Y | X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题

1.8分类问题

  • 监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出预测,称为分类
  • 分类问题分为学习分类
  • 分类器的性能指标一般是分类准确率:
    • 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数0-1损失时测试数据集上的准确率
  • 二分类评价指标值精准率召回率
类别 解释
TP 将正类预测为正类数
FN 将正类预测为负类数
FP 将负类预测为正类数
TN 将负类预测为负类数
  • 精确率:

P = T P T P + F P P = \frac{TP} {TP + FP} P=TP+FPTP

  • 召回率:

R = T P T P + F N R = \frac{TP}{TP + FN} R=TP+FNTP

  • F1值:

2 F 1 = 1 P + 1 R \frac{2} {F1} = \frac{1} {P} + \frac{1} {R} F12=P1+R1

F 1 = 2 ∗ T P 2 ∗ T P + F P + F N F1 = \frac {2 * TP} {2 * TP + FP + FN} F1=2TP+FP+FN2TP

1.9标注问题

  • 输入是一个观测序列,输出是一个标记序列或状态序列
  • 常用统计学习方法有:
    • 隐马尔科夫模型
    • 条件随机场

1.10回归问题

  • 回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输出变量的值发生变化时,输出变量的值随之发生变化。
  • 按照输入变量的个数,分为一元回归多元回归
  • 按照输入变量和输出变量之间关系类型,分为线性回归非线性回归
  • 回归学习最常用的损失函数是平方损失函数,由最小二乘法求解

第二章 感知机

  • 感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别
  • 属于判别模型

2.1感知机模型

  • 感知机定义:
    • 输入空间(特征空间)是 X ⊆ R n X \subseteq R^n XRn
    • 输出空间是 y = { + 1 , − 1 } y = \begin{Bmatrix}+1, -1\end{Bmatrix} y={+11}
    • 输入空间到输出空间的函数(称为感知机) f ( x ) = s i g n ( w ∗ x + b ) f(x) = sign(w * x + b) f(x)=sign(wx+b)
      • w和b为感知机模型参数
      • w叫做权值或权值向量
      • b叫做偏置
      • w * x表示w和x的内积
      • sign是符号函数

2.2感知机学习策略

  • 数据集的线性可分性
    • 如果存在某个超平面S能够将数据集的正实例和负实例点完全正确地划分到超平面的两侧,即对所有 y i = + 1 y_i = +1 yi=+1 的实例 i,有 w ∗ x i + b > 0 w * x_i + b > 0 wxi+b>0,对所有 y i = − 1 y_i = -1 yi=1的实例 i,有 w ∗ x i + b < 0 w * x_i + b < 0 wxi+b<0,则称数据集T为线性可分数据集。
  • 感知机学习策略
    • 感知机sign(w * x + b)学习的损失函数定义为 L ( w , b ) = − ∑ x i ∈ M y i ( w ∗ x i + b ) L(w, b) = - \sum_{x_i \in M} y_i(w * x_i + b) L(w,b)=xiMyi(wxi+b)
    • M为误分点的集合,感知机学习的经验风险函数
    • 损失函数L(w, b)是w, b的连续可导函数

2.3感知机学习算法

  • 损失函数极小化问题的损失函数 min ⁡ w , b L ( w , b ) = − ∑ x i ∈ M y i ∗ ( w ∗ x i + b ) \min_{w, b}L(w, b) = - \sum_{x_i \in M} y_i * (w * x_i + b) w,bminL(w,b)=xiMyi(wxi+b)
    损失函数对应于误分类点到分离超平面的总距离

第三章 k近邻法

  • k近邻法(k-NN)是一张基本分类回归方法
  • 基本要素:
    • k值的选择
    • 距离度量
    • 分类决策规则

3.1k近邻算法

  • 定义:
    • 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k和实例,这k个实例的多数属于某个类,就把该输入实例分为这个类
  • 没有显式的学习过程
3.2.2距离度量
  • 欧式距离:以空间为基准的两点之间最短距离
  • 曼哈顿距离:两点在南北方向上的距离加上在东西方向上的距离,即 d ( i , j ) = ∣ x i − x j ∣ + ∣ y i − y j ∣ d(i,j)=|xi-xj|+|yi-yj| dij=xixj+yiyj
3.2.3k值的选择
  • k值的减小就意味着整体模型变得复杂,容易发生过拟合
  • k值的增大就相当于用较大邻域中的训练实例进行预测,可以减少学习的估计误差,学习的近似误差增大,模型变得简单
  • 应用中,k值一般取一个较小的数值,通常采用交叉验证法来选取最优的k值

3.3k近邻法的实现:kd树

  • k近邻法最简单的实现就是线性扫描,当训练集很大时,计算非常耗时
3.3.1构造kd树
  • kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构
  • kd树是二叉树,表示对k维空间的划分
  • 构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超巨型区域。kd树的每个节点对应于一个k维超巨型区域
3.3.2 搜索kd树
  • kd树的最邻近搜索
    • 输入:已构造的kd树;目标点x
    • 输出:x的最邻近
    • 解答:
      • 在kd树中找出包含目标点x的叶节点:从根节点出发,递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移到右子节点。直到子节点为叶节点为止
      • 以此叶节点为“当前最近点”
      • 递归地向上回退,在每个节点进行以下操作:
        • 如果该节点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”
        • 当前最近点一定存在于该节点一个子节点对应的区域。检查该子节点的父节点的另一子节点的区域是否有更近的点。具体地,检查另一子节点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超平面球体相交。如果相交,可能在另一个子节点对应的区域内存在距目标点更近的点,移动到另一个子节点。接着,递归地进行最近邻搜索。
      • 当回退到根节点时,搜索结束,最后的“当前最近点”即为x的最近邻点。

第四章 朴素贝叶斯法

  • 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

  • 对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y

  • 先验概率: P ( 原 因 ) P(原因) P()

  • 后验概率: P ( 原 因 ∣ 结 果 ) P(原因|结果) P()

  • 条件概率: P ( Y ∣ X ) P(Y|X) P(YX) 表示在条件X成立时,Y存在成立的概率

4.1朴素贝叶斯法的学习与分类

  • 朴素贝叶斯法通过训练数据集学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)
    学习先验概率分布: P ( Y = c k ) , k = 1 , 2 , … … , k P(Y=c_k), k=1, 2, ……, k P(Y=ck),k=1,2,,k
    学习条件概率分布: P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , … … , X ( n ) = x ( n ) ) , k = 1 , 2 , … … , k P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, ……, X^{(n)}=x^{(n)}), k=1, 2, ……, k P(X=xY=ck)=P(X(1)=x(1),,X(n)=x(n)),k=1,2,,k
    于是学习到联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)
  • 属于生成模型
  • 朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布 P ( Y = c k ∣ X = x ) P(Y=c_k|X=x) P(Y=ckX=x),将后验概率最大类作为x的类输出。后验概率公式:
    P ( Y = c k ∣ X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k P ( X = x ∣ Y = c k ) P ( Y = c k ) P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)} P(Y=ckX=x)=kP(X=xY=ck)P(Y=ck)P(X=xY=ck)P(Y=ck)
4.1.2后验概率最大化的含义
  • 朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化
  • 后验概率最大化准则: f ( x ) = arg ⁡ max ⁡ c k P ( c k ∣ X = x ) f(x)=\mathop{\arg\max}_{c_k}P(c_k|X=x) f(x)=argmaxckP(ckX=x)
4.2.1极大似然估计
  • 先验概率 P ( Y = c k ) P(Y=c_k) P(Y=ck)的极大似然估计是 P ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) N , k = 1 , 2 , … … , K P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}, k=1, 2, ……, K P(Y=ck)=Ni=1NI(yi=ck),k=1,2,,K
  • 条件概率 P ( X ( f ) = a j l ∣ Y = c k ) P(X^{(f)}=a_{jl}|Y=c_k) P(X(f)=ajlY=ck)的极大似然估计是 P ( X ( f ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( f ) = a j l , y i = c k ) ∑ i = 1 N I ( y i = c k ) P(X^{(f)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(f)}=a_{jl}, y_i=c_k)}{\sum_{i=1}{N}I(y_i=c_k)} P(X(f)=ajlY=ck)=i=1NI(yi=ck)i=1NI(xi(f)=ajl,yi=ck)
    j = 1 , 2 , … … , n ; l = 1 , 2 , … … , S j ; k = 1 , 2 , … … , K j=1, 2, ……, n; l=1, 2, ……, S_j; k=1, 2, ……, K j=1,2,,n;l=1,2,,Sj;k=1,2,,K
    式中, x i ( f ) x_i^{(f)} xi(f)是第i个样本的第j个特征; a j l a_{jl} ajl是第j个特征可能取的第l个值;I为指示函数
4.2.3贝叶斯估计
  • 用极大似然估计可能会出现所要估计的概率值为0的情况。条件概率的贝叶斯估计是 P λ ( X j = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k ) + S j λ P_\lambda(X^{j}=a_{jl}|Y=c_k)=\frac{\sum^N_{i=1}I(x_i^{(j)}=a_{jl}, y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda} Pλ(Xj=ajlY=ck)=i=1NI(yi=ck)+Sjλi=1NI(xi(j)=ajl,yi=ck)+λ

  • 式中 λ > = 0 \lambda>=0 λ>=0等价于在随机变量各个取值的频数上赋予一个正数 λ > 0 \lambda>0 λ>0。当 λ = 0 \lambda=0 λ=0时就是极大似然估计。常取 λ = 1 \lambda=1 λ=1,这时称为拉普拉斯平滑。显然对于任何 l = 1 , 2 , … … , S j , k = 1 , 2 , … … , K l=1, 2, ……, S_j, k=1, 2, ……, K l=1,2,,Sj,k=1,2,,K P λ ( X ( f ) = a j l ∣ Y = c k ) > 0 P_\lambda(X^{(f)=a_{jl}}|Y=c_k)>0 Pλ(X(f)=ajlY=ck)>0 ∑ l = 1 S j P ( X j = a j l ∣ Y = c k ) = 1 \sum_{l=1}^{S_j}P(X^{j}=a_{jl}|Y=c_k)=1 l=1SjP(Xj=ajlY=ck)=1先验概率的贝叶斯估计是 P λ ( Y = c k ) = ∑ i = 1 N I ( y i = c k ) + λ N + K λ P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda} Pλ(Y=ck)=N+Kλi=1NI(yi=ck)+λ

  • 本章概要

    • 生成方法由训练数据学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y),然后求得到后验概率分布 P ( Y ∣ X ) P(Y|X) P(YX)。利用训练数据学习 P ( X ∣ Y ) P(X|Y) P(XY) P ( Y ) P(Y) P(Y)的估计,得到联合概率分布: P ( X , Y ) = P ( Y ) P ( X ∣ Y ) P(X, Y)=P(Y)P(X|Y) P(X,Y)=P(Y)P(XY)
    • 朴素贝叶斯法的基本假设是条件概率独立性, P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , … … , X ( n ) = X ( n ) ∣ Y = c k ) P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)}, ……, X^{(n)}=X^{(n)}|Y=c_k) P(X=xY=ck)=P(X(1)=x(1),,X(n)=X(n)Y=ck) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) =\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_k) =j=1nP(X(j)=x(j)Y=ck)这是一个较强的假设,因此条件概率的数量大为减小,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现,缺点是分类的性能不一定很高。
    • 朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行预测。 P ( Y ∣ X ) = P ( X , Y ) P ( X ) = P ( Y ) P ( X ∣ Y ) ∑ Y P ( Y ) P ( X ∣ Y ) P(Y|X)=\frac{P(X, Y)}{P(X)}=\frac{P(Y)P(X|Y)}{\sum_YP(Y)P(X|Y)} P(YX)=P(X)P(X,Y)=YP(Y)P(XY)P(Y)P(XY)将输入x分到后验概率最大的类y。

    y = arg ⁡ max ⁡ c k y=\mathop{\arg\max}_{c_k} y=argmaxck\

    P ( Y = c k ) ∏ j = 1 n P ( X j = x ( j ) ∣ Y = c k ) P(Y=c_k)\prod^n_{j=1}P(X_j=x^{(j)}|Y=c_k) P(Y=ck)j=1nP(Xj=x(j)Y=ck)

后验概率最大等价于0-1损失函数时的期望风险最小化

  • 注解:
    P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) P(A|B)=P(B|A)*\frac{P(A)}{P(B)} P(AB)=P(BA)P(B)P(A)
    • 贝叶斯三要素

第五章 决策树

  • 决策树的学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪
5.1.1决策树模型
  • 定义:分类决策树模型是一种描述对实例进行分类的树形结构
5.2.1特征选择
5.2.2信息增益
  • 熵是表示随机变量不确定性的度量
  • 信息增益:定义:
    • 特征A对训练集D的信息增益g(D, A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D | A)之差,及: g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D, A) = H(D) - H(D | A) g(D,A)=H(D)H(DA)
    • 一般地,熵H(Y)与条件熵H(Y | X)之差称为互斥信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

5.3决策树的生成

第六章 逻辑斯谛回归与最大熵模型

  • 都属于对数线性模型

逻辑斯谛回归模型

6.1.1逻辑斯谛分布
  • 定义:
    • 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数: F ( x ) = P ( X ≤ x 0 ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X \le x0)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(Xx0)=1+e(xμ)/γ1
      f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F^{'}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ式中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数
6.1.2二项逻辑斯谛回归模型
  • 定义:二项逻辑斯谛回归模型是如下的条件概率分布: P ( Y = 1 ∣ x ) = e x p ( w ∗ x + b ) 1 + e x p ( w ∗ x + b ) 这 里 , x ∈ R n 是 输 入 , Y ∈ 0 , 1 是 输 出 , P(Y=1|x)=\frac{exp(w*x+b)}{1+ exp(w * x+b)}这里,x\in R^n是输入,Y\in \\{0, 1\\}是输出, P(Y=1x)=1+exp(wx+b)exp(wx+b)xRnY0,1

w ∈ R n 和 b ∈ R 是 参 数 , w 称 为 权 值 向 量 , b 称 为 偏 置 , w ∗ x 为 w 和 x 的 内 积 w\in R^n 和 b\in R是参数,w称为权值向量,b称为偏置,w*x为w和x的内积 wRnbRwbwxwx

6.1.3模型参数估计

假 设 w 的 极 大 似 然 估 计 值 是 w ^ , 那 么 学 到 的 逻 辑 斯 谛 回 归 模 型 为 假设w的极大似然估计值是\hat{w},那么学到的逻辑斯谛回归模型为 ww^

P ( Y = 1 ∣ X ) = e x p ( w ^ ∗ x ) 1 + e x p ( w ^ ∗ x ) P(Y=1|X)=\frac{exp(\hat{w}*x)}{1+exp(\hat{w}*x)} P(Y=1X)=1+exp(w^x)exp(w^x)

P ( Y = 0 ∣ X ) = 1 1 + e x p ( w ^ ∗ x ) P(Y=0|X)=\frac{1}{1+exp(\hat{w}*x)} P(Y=0X)=1+exp(w^x)1

6.2最大熵模型

6.2.1最大熵原理

假 设 离 散 随 机 变 量 X 的 概 率 分 布 是 P ( X ) , 其 熵 是 假设离散随机变量X的概率分布是P(X),其熵是 XP(X)

H ( P ) = − ∑ x P ( x ) l o g P ( x ) H(P)=-\sum_xP(x)logP(x) H(P)=xP(x)logP(x)

熵 满 足 下 列 不 等 式 : 0 ≤ H ( P ) ≤ l o g ∣ X ∣ 熵满足下列不等式:0\le H(P)\le log|X| 0H(P)logX

式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。就是,当X服从均匀分布时,熵最大。

最大熵模型:假设满足所有约束条件的模型集合为 C ≡ P ∈ p ∣ E p ( f i ) = E p ˉ ( f i ) , i = 1 , 2 , … … , n C\equiv \\{ P\in p | E_p(f_i)=E_{\bar{p}}(f_i),i=1, 2, ……, n \\} CPpEp(fi)=Epˉ(fi)i=1,2,,n

定 义 在 条 件 概 率 分 布 P ( Y ∣ X ) 上 的 条 件 熵 为 H ( P ) = − ∑ x , y P ˉ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) 定义在条件概率分布P(Y|X)上的条件熵为H(P)=-\sum_{x,y}\bar{P}(x)P(y|x)logP(y|x) P(YX)H(P)=x,yPˉ(x)P(yx)logP(yx)

则 模 型 集 合 C 中 条 件 熵 H ( P ) 最 大 的 模 型 称 为 最 大 熵 模 型 。 式 中 的 对 数 为 自 然 对 数 则模型集合C中条件熵H(P)最大的模型称为最大熵模型。式中的对数为自然对数 CH(P)

P99

你可能感兴趣的:(书-总结)