机器学习——Logistic回归

统计学习方法一般看中的是模型 、策略与计算方法(梯度法、牛顿法)。

而Logistic回归模型是广义线性模型,策略是条件概率,计算方法是梯度法、牛顿法等。

1 LR模型

二项LR模型是如下的条件概率分布:

P(y=1|x)=\frac{1}{1+exp(-\omega \cdot x)}

\omega \cdot x是参数与输入变量x的内积

如果你有疑惑P为什么是这个公司,这是因为:因为LR是基于伯努利分布,属于概率模型,可以引用最大熵模型的结论,而伯努利属于指数分布族,也是广义线性模型,所以可以将特征函数写成wx)

2 模型参数估计

在LR模型学习中,给定数据集{(x1,y1),(x2,y2),...,(xN,YN)},使用最大似然法估计模型参数,先求似然函数(似然就认为是概率,只不过概率是模型已知参数已知,但是似然是参数未知模型已知求变量的概率),似然函数也就是似然的函数,有N个样本,所有样本预测正确的概率:

\prod _{i=1}^{N}\pi (xi)^{yi}(1-\pi (xi))^{(1-{yi})}

\pi (xi)为P(y=1|x)。

对似然函数去对数,原因有2个,把乘变成加便于计算和值变大

L(\omega )= \sum_{i=1}^{N} y_{i}log(\pi (x_{i}))+ (1-y_{i})log(1-\pi (x_{i}))

接下来用梯度上升法求解模型的最优参数(不是唯一的,还可以用别的)。梯度上升法数学角度讲是通过泰勒展开式保留一阶,通俗地理解,就是爬山,怎么寻找最短路径,因为看不到远方,只能说我向前走一步就走最陡的地方。

参数的个数由输入特征觉得,若xi的特征数为2(房价预测,特征是面积和在第几层),则加上偏置参数的个数是3个。

梯度上升法核心是求参数偏导和迭代,先对参数进行初始化,再通过迭代一步一步逼近极值,梯度上升法可表示为:

\omega_{j} := \omega_{j}+\alpha \frac{\partial L(\omega )}{\omega_{j}}

求出\frac{\partial L(\omega )}{\omega_{j}}即可,\alpha是学习的步长,由自己定义。

这个求导比较容易,为:

\frac{\partial L(\omega )}{\omega_{j}}=(y_{i}+1-\frac{exp(-\omega x_{i})}{1+exp(-\omega x_{i})})x_{ij}

xi表示第i个输入数据,xij表示第i个数据第j个特征值

3 指数分布族和广义线性模型

广义线性族:指数分布族、给定概率分布推导出线性模型

指数分布族满足概率分布为以下形式:

P(y;\phi)=b(y)exp(\phi _{T}T(y)-a(\eta ))

η 是分布的自然参数;

T(y) 是充分统计量,通常 T(y)=y;

a(η) 被称为 log partition function,作用是归一化;

LR回归是基于伯努利分布:

P(y=1;φ)=φ      P(y=0;φ)=1-φ

P(y;\phi)=\phi^{y}(1-\phi)^{1-y}

P(y;\phi)=exp(yln\phi + (1-y)ln(1-\phi))

P(y;\phi)=exp(yln\frac{\phi }{1-\phi}+ ln(1-\phi))

所以LR是指数族,概率分布推导出线性模型wx

你可能感兴趣的:(面试,人工智能,面试准备)