逻辑回归分类器(Logistic Regression Classifier)

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性,也用来进行分类。

在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 
输入测试样本集中的测试数据时,这一组权值按照与测试数据线性加和的方式,求出一个z值:

z = w0+w1*x1+w2*x2+...+wm*xm。 ① (其中x1,x2,...,xm是某样本数据的各个特征,维度为m
之后按照sigmoid函数的形式求出:

σ(z) = 1 / (1+exp(z)) 。②

由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数,每一个样本点,都可以通过上述的公式①和②计算出其概率密度

LR分类器的关键问题就是求出这一组权值w0,w1,...,wm。这需要涉及到极大似然估计MLE和优化算法的概念。

一、逻辑回归模型

何为回归:回归其实就是对已知公式的未知参数进行估计。比如已知公式是y = a*x + b,未知参数是ab。我们现在有很多真实的(x,y)数据(训练样本),回归就是利用这些数据对ab的取值去自动估计。 

其实Logistic Regression 就是一个被logistic方程归一化后的线性回归,仅此而已。至于用logistic方程而不用其它,是因为这种归一化的方法往往比较合理,能够打压过大和过小的结果(往往是噪音),以保证主流的结果不至于被忽视。

1.1逻辑回归模型

逻辑回归分类器(Logistic Regression Classifier)_第1张图片
逻辑回归分类器(Logistic Regression Classifier)_第2张图片

1.2极大似然函数

逻辑回归分类器(Logistic Regression Classifier)_第3张图片
逻辑回归分类器(Logistic Regression Classifier)_第4张图片

1.3 牛顿-拉斐森迭代法

逻辑回归分类器(Logistic Regression Classifier)_第5张图片
逻辑回归分类器(Logistic Regression Classifier)_第6张图片
注:逻辑回归分类器的Spark代码实现参照博客:Spark简介第六章代码部分:http://blog.csdn.net/qustqustjay/article/details/46874071

你可能感兴趣的:(机器学习算法)