天猫大数据3—回归模型

进入第二季之后,开始熟悉第二季的平台,在延续了第一季的算法后,在大数据上约取得了4%的F1值,itemCF是在map-reduce下完成,统计模型是

基本在基于odps的sql操作表级下完成

之后转战回归模型

这里先回忆一下回归模型的基础:

谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm
当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:
z = w0+w1*x1+w2*x2+...+wm*xm。  (其中x1,x2,...,xm是某样本数据的各个特征,维度为m)

之后按照sigmoid函数的形式求出:

σ(z) = 1 / (1+exp(z)) 。

由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的LR分类器适合于对两类目标进行分类。

那么LR分类器的这一组权值w0,w1,...,wm是如何求得的呢?这就需要涉及到极大似然估计MLE和优化算法的概念了。

我们将sigmoid函数看成样本数据的概率密度函数,每一个样本点,都可以通过上述的公式①和计算出其概率密度


逻辑回归模型

考虑具有p个独立变量的向量clip_image002,设条件概率clip_image004为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为

clip_image006         (1.1)

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

天猫大数据3—回归模型_第1张图片

 

其中。如果含有名义变量,则将其变为dummy变量一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有

(1.2)

  定义不发生事件的条件概率为

 (1.3)

那么,事件发生与事件不发生的概率之比为

clip_image016                                       (1.4)

这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数

      (1.5),

 极大似然函数

  假设有n个观测样本,观测值分别为clip_image020clip_image022为给定条件下得到yi=1(原文clip_image024)的概率。在同样条件下得到yi=0(clip_image026)的条件概率为clip_image028。于是,得到一个观测值的概率为

                                                (1.6)     -----此公式实际上是综合前两个等式得出,并无特别之处

 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。

                                     

上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数clip_image034,使上式取得最大值。

对上述函数求对数

   (1.8)

上式称为对数似然函数。为了估计能使clip_image038取得最大的参数clip_image034[1]的值。


之后我们结合自己选取的特征利用LP的方法进行处理,再融合了itenCF的方法


你可能感兴趣的:(天猫,逻辑回归模型)