对数线性模型(Logistic回归算法)

1.Logistic分布:

logistic分布定义:设X是连续随机变量,X服从logistic分布,即为X具有下列分布函数和密度函数:

   

其中,mu为位置参数,r>0为形状参数;

logistic分布的分布函数F(x)的图形与密度函数f(x)的图形如下所示:

对数线性模型(Logistic回归算法)_第1张图片  对数线性模型(Logistic回归算法)_第2张图片

分布函数 密度函数

分布函数的图形是一条S形曲线,该曲线是以(mu,1/2)为中心对称,在曲线中心附近增长速度较快,而在两端增长速度较慢,形状参数r的值越小,曲线在中心附近增长越快;

2.二项 Logistic 回归模型

二项Logistic回归模型由条件概率分布P(Y|X)表示,X为随机变量,取值为实数,Y同为随机变量,但取值为1或0;

二项 Logistic回归模型的条件概率分布:

其中,w称为权值向量,b为偏置,x为输入,Y为输出,也就是说通过统计x的概率值,在那一类中的概率值较大,就将x分到那一类中,

3.模型参数估计

给定训练数据集T={(x1,y1),(x2,y2),....(xN,yN)}, xi为实数,yi为0,1;

则通过极大似然估计法求得模型参数;

设P(Y=1|x)=p(x),,P(Y=0|x)=1-p(x)

似然函数表示为:

对数似然函数表示为:

然后对L(w)求极大值,得到w的估计值;

将对数似然函数作为目标函数,对其进行最优化问题;优化方法通常采用梯度下降法及拟牛顿法

对数损失函数的标准形式为:L(Y,P(Y|X)) = -logP(Y|X)意思就是什么样的参数才能使观测到目前这组数据的概率最大。

因为log函数是单调递增函数,所以log(P(Y|X)能够得到最大值,但L(Y,P(Y|X))=-logP(Y|X),所以最大化P(Y|X)就等同于最小化L

逻辑回归的P(Y=y|x)表达式为:

令w*x+b=f(x),则逻辑回归P(Y=y|x)的表达式为:

将公式带入到L(Y,P(Y|X)中,通过推导得到logistic的损失函数表达式,

最后推导出logistic回归的目标公式:

梯度下降法:

梯度 下降是通过J(w)对参数w进行一阶求导来找到下降方向,并且以迭代的方式更新参数,更新方式为 K为迭代次数;

每次更新参数后,通过比较||J(k+1)-J(k)||与某个阈值e大小项比较,比e小就停止;

牛顿法:

在现有极小点估计值的附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计值

为当前极小值的估计值,那么

对其进行求导,令导数求w的估计值,并与阈值e相比较;


你可能感兴趣的:(机器学习)