十分钟理解logistic回归原理

关于逻辑回归的分类算法,很多书籍都有介绍,比较来看,还是**李航老师的书《统计学习方法》**里介绍的更清楚,若大家有时间,请不要偷懒,还是建议从头开始看李航老师的书,这本书简洁明了,适合入门。建议至少看1遍。

基于如上(主要参考李老师那本书),本篇博客,再次对逻辑回归,梳理如下,目的是让大家更快地理解逻辑回归。

1. logistic分布的概念,如下图
十分钟理解logistic回归原理_第1张图片
logistic分布为什么常用呢?因为它的分布曲线,在中心附近增长很快,而在两端增长很慢。这就是说,若以概率0.5(中心点μ处的分布概率)为分界点,大于μ的点Z为一类,小于μ的点为另一类,那么,我们能很好很快地把中心点附近的数据分类,就像越阶跳一样,不拖泥带水。

基于这个分布的特点,我们假设训练数据满足如下的模型:

2. Logistic回归的模型,如下图
十分钟理解logistic回归原理_第2张图片

3. Logistic模型中参数的求法(估计)
有了如上模型的假设,有了训练数据后,我们就可以把模型中的参数给求出来,具体方法如下:
十分钟理解logistic回归原理_第3张图片

4. 利用模型进行分类
利用3中的方法,得到一个logistic模型的结果如下:
十分钟理解logistic回归原理_第4张图片

则,对于测试数据或未来要分类的数据,我们只需把x带入上面的两个条件概率公式,哪个条件概率的值大,x对应的类别便是哪一类。

你可能感兴趣的:(数据挖掘&机器学习)