机器学习篇——对数线性模型

建议首先看cs229讲的广义线性模型、exponential family(指数分布族)
对数线性模型包括逻辑回归、最大熵模型和条件随机场等
1、模型
条件概率分布(对数线性模型、概率模型)、判别模型
机器学习篇——对数线性模型_第1张图片
逻辑回归:
概率分布可由广义线性模型推导得到
多分类时,分子部分为:第k类exp(-wk*x+b),第一类为1
分母部分为所有类分子之和,即标准化因子
最大熵模型:
概率分布由最大熵原理进行建模
分子部分为:exp(特征函数的加权和)
分母部分为对分子的标准化因子
条件随机场:
概率分布由线性链(简单情况)条件随机场确定
分子为:这里写图片描述
分母为:这里写图片描述
2、策略
最大似然估计
注:凡是已知条件概率分布(其实是似然)的模型,一般策略都是最大似然估计,即最小化对数损失函数
最大似然估计是一种参数估计方法,其他还有最大后验概率(考虑先验的最大似然)、贝叶斯估计(最大后验的基础上进一步增强,分母看做归一化因子,即对分子的积分)最小二乘估计(最小平方估计,最小化误差的平方)等,会在后面总结一节
3、算法
对数线性模型参数估计用到的算法即是最大似然估计用的算法,也就是梯度下降法等
注:条件随机场其他两个问题中,概率用前向-后向算法,预测用维特比算法(同隐马尔科夫模型)
4、补充
最大熵模型推导过程:
一是最大化条件熵
条件熵等于联合熵减去熵
二是由特征函数确定约束条件
特征函数关于(联合概率的经验分布)的期望值等于特征函数关于条件分布(模型)与边缘概率的期望值
三是建立原始约束最优化问题
即max最大熵模型
s.t 约束条件
四是建立最小最大化原问题
引入拉格朗日乘子
五是转化为最大最小化问题
引入kkt条件
六是转化为极大似然估计

你可能感兴趣的:(机器学习篇——对数线性模型)