Scikit-learn之线性回归和逻辑回归

Scikit-learn之线性回归和逻辑回归

  • 1. 线性回归
    • 1.1 工具准备
    • 1.2 重要的实施步骤
  • 2. 逻辑回归

1. 线性回归

线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或者两种以上变量间相互依赖的定量关系的一种统计分析方法。本文主要介绍如何使用sklearn高效的进行线性回归分析。

1.1 工具准备

利用sklearn进行线性回归分析,首先需要安装好scikit-learn库,安装语句如下:

pip install scikit-learn

或者

conda install scikit-learn

(安装的过程中,可能会安装失败,可以多次尝试,失败很正常。对于scikit-learn,使用pip安装的成功概率更高)

另外,在安装过程中,如果安装不成功,可以根据提示具体对待,常见问题有,未安装依赖包,如pandas、numpy、Scipy等等。

1.2 重要的实施步骤

  1. 数据预处理
    现实中获得的数据大多数都是“脏、乱、差”的数据,因此掌握数据预处理方法显得更加重要。数据预处理,离不开高效工具的辅助,本文极力推荐使用pandas、numpy两个高效工具进行数据预处理工作,实现事半功倍的效果。
  2. 定义模型
    经过数据预处理,我们可以定义我们的算法模型,直接从sklearn库中导入类LinearRegression即可,由于线性回归比较简单,所以这个类的输入参数也比较少,不需要多加设置。 定义好模型之后直接训练,就能得到我们拟合的一些参数。
from sklearn.linear_model import LinearRegression # 导入线性回归模型
model = LinearRegression() # 定义模型
model.fit(X_train[:,np.newaxis], y_train[:,np.newaxis]) # 训练模型   这里要注意np.newaxis的作用
#解读np.newaxis在这里的作用
a=np.array([1,2,3,4])   #此时a=array([1, 2, 3, 4])
a[:,np.newaxis]  
'''此时array([[1],
       		[2],
       		[3],
       		[4]])
'''
  1. 模型测试和比较
    对于低维度数据,可以通过图形展示回归效果。对于高维数据,通过分析模型所的结果与已有的真实结果之间的方差等指标进行分析。

2. 逻辑回归

逻辑回归又叫对数几率回归,是一种广义的线性回归分析模型。虽然名字里有回归,但其实是分类模型,常用于二分类。
简单地说,逻辑回归的原理是用逻辑函数把线性回归的结果从(-∞,∞)映射到(0,1)。
逻辑函数:
s i g m o d = 1 ( 1 + e − z )   sigmod = \frac{1}{(1+e^{-z})}\, sigmod=(1+ez)1
显然该函数的值域为0-1.

利用sklearn进行逻辑回归,需要使用到的函数为:

from sklearn.linear_model import LogisticRegression

该函数的用法非常简单,掌握其对数据输入的要求即可实现。如果对逻辑回归原理需要深入了解,建议阅读、运行该函数的源代码,加以理解。

你可能感兴趣的:(sklearn,sklearn,机器学习,python)