LR逻辑回归模型

一、逻辑回归应用

逻辑回归适合用来学习需要大规模训练的样本和特征,对于广告亿量级特征来说,逻辑回归有着天然的优势,因而逻辑回归在工业界获得了广泛的应用。而逻辑回归的缺点是,需要大量的特征组合和离散的工作来增加特征的表达性,模型的表达能力弱,比较容易欠拟合。

业界对逻辑回归的研究热点主要集中在稀疏性、准确性和大规模计算上。实际应用逻辑回归前,经常会对特征进行独热(one hot)编码,比如广告点击率应用中的用户ID,广告ID。为了实现计算效率和性能的优化,逻辑回归求解有很多优化方法,比如BFGS、LBFGS、共轭梯度法、信赖域法,其中前两个方法是牛顿法的变种,LBFGS是BFGS算法在受限内存限制下的近视优化。

针对逻辑回归在线学习时遇到的稀疏性和准确性问题,谷歌和伯克利分校提出了稀疏性比较好的FOBOS算法,微软提出了RDA算法。谷歌综合了精度比较好的RDA和稀疏性比较好的FOBOS提出了FTRL,但在L1范数或者非光滑的正则项下,FTRL的效果会更好。

在实际应用中,逻辑回归也需要注意正则化的问题。L1正则(也称LASSO)假设模型参数取值满足拉普拉斯分布,L2正则(也称RIDGE)假设模型参数取值满足高斯分布。

二、逻辑回归的缺点

逻辑回归无法学到特征间的组合关系,而特征组合关系在推荐和CTR预估中却是比较常见的。在进行点击率预估时,特征通常来自于用户,广告和上下文环境,如果没有对这些特征进行组合,模型就无法学习到所有有用的信息。例如,在同一用户在不同时间或者地点感兴趣的广告是不同的;同一件商品在不同地区的受欢迎程度也是不同的。但人工特征组合需要大量的特征工程工作,对特征做暴力组合模型又太复杂、参数太多。模型训练迭代无论是内存开销还是时间开销让人很难接受,迭代效果往往也比较差。

LR主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式,以此进行分类。

Sigmoid 函数

回归 概念

假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归。进而可以得到对这些点的拟合直线方程,那么我们根据这个回归方程,怎么进行

你可能感兴趣的:(#,机器学习算法原理)