回归和分类是机器学习中最基本的两类问题,这两类问题都有以下几个步骤:
如何选取一个合理的模型(线性的或者非线性的,如阶跃函数、 高斯函数等)。
制造一个好的误差函数(可以评估拟合程度)
采取一切可能的技术(如导数下降法、解极值方程法等)求出最好的模型参数
总的来说两个问题本质上都是一致的,就是模型的拟合。但是分类问题的 y 值是离散的. 而且,同一个 y 值可能对应着一大批的 x , 这些 x 是具有一定范围的,所以分类问题更多的是一定区域的一些 x 对应着一个 y ;而回归问题的的 y 值是离散的,一般是一个 x 对应着一个 y 。
回归分析常用于分析两个变量 X 和 Y 之间的关系,比如 X=房子大小 和 Y=房价 之间的关系,X=(公园人流量,公园门票票价) 与 Y=(公园收入) 之间的关系等等。
在机器学习中,训练集或者训练数据是流程中的输入数据,一般称为 x ;输出数据,一般称为 y ;而拟合的函数(或者称为假设或者模型)一般写做 y = h(x)。
现欲找到房子大小和房价的关系, 也就是用一个函数 f(x) = y 来很好地表示这两个变量之间的关系。
首先大概评估一下这个 X 和 Y 大概是线性的关系还是非线性的关系:
可以看到,在这个问题中,线性的关系更符合这两者的关系。于是选择一个合适的线性模型去匹配这些数据点。
线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大,每个特征对结果的影响强弱可以由前面的参数体现,而且每个特征变量可以首先映射到一个函数,然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。
假设用 X1,X2,…,Xn 去描述特征( feature )里面的分量,就可以做出一个估计函数:
如果令 X0 = 1 ,就可以用向量的方式来表示估计函数:
要对做出的估计函数 h 进行评估,即一个机制去评估 θ 的好坏,一般通过损失函数( loss function )或者错误函数( error function )来进行描述。。
可以认为错误函数(在此称为 J 函数)如下:
可见错误估计函数是对 x(i) 的估计值与真实值 y(i) 差的平方和(理由可见下面的最大似然估计),而前面乘上的系数并不影响结果。
如何调整 θ 以使得 J(θ) 取得最小值就是我们需要解决的参数估计问题。
最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。它的原理是用“残差平方和最小”确定直线位置。
将训练特征表示为 X 矩阵,结果表示成 y 向量,仍然是线性回归模型,误差函数不变。
那么 θ 可以直接由下面公式得出:
梯度下降法是按下面的流程进行的:
1)首先对 θ 赋值,这个值可以是随机的,也可以让 θ 是一个全零的向量。
2)改变 θ 的值,使得 J(θ)按梯度下降的方向进行减少。
为了更清楚,给出下面的图:
这是一个表示参数 θ 与误差函数 J(θ)的关系图,红色的部分是表示 J(θ)有着比较高的取值,我们需要的是,能够让J(θ)的值尽量的低。也就是深蓝色的部分。 θ 0 θ_0 θ0, θ 1 θ_1 θ1 表示 θ 向量的两个维度。
在上面提到梯度下降法的第一步是给θ给一个初值,假设随机给的初值是在图上的十字点。
然后我们将 θ 按照梯度下降的方向进行调整,就会使得J(θ)往更低的方向进行变化,如图所示,算法的结束将是在 θ 下降到无法继续下降为止。
当然,可能梯度下降的最终点并非是全局最小点,可能是一个局部最小点,可能是下面的情况:
上面这张图就是描述的一个局部最小点,这是我们重新选择了一个初始点得到的,看来我们这个算法将会在很大的程度上被初始点的选择影响而陷入局部最小点 。
下面我将用一个例子描述一下梯度减少的过程,对于我们的函数 J(θ)求偏导 J:(求导的过程如果不明白,可以温习一下微积分)
下面是更新的过程,也就是 θ i θ_i θi会向着梯度最小的方向进行减少。 θ i θ_i θi 表示更新之前的值,减号后面的部分表示按梯度方向减少的量,α 表示步长,也就是每次按照梯度减少的方向变化多少。
值得注意的是,梯度是有方向的,对于一个向量 θ,每一维分量 θ i θ_i θi 都可以求出一个梯度的方向,我们就可以找到一个整体的方向,在变化的时候,我们就朝着下降最多的方向进行变化就可以达到一个最小点,不管它是局部的还是全局的。
用更简单的数学语言进行描述步骤 2)是这样的:
基本思想:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。
预测结果和真实结果之间满足下式:
一般来讲,误差满足平均值为 0 的高斯分布,也就是正态分布。那么 x 和 y 的条件概率也就是:
这样就估计了一条样本的结果概率,然而我们期待的是模型能够在全部样本上预测最准,也就是概率积最大。
注意:这里的概率积是概率密度函数积,连续函数的概率密度函数与离散值的概率函数不同。
这个概率积成为最大似然估计。我们希望在最大似然估计得到最大值时确定 θ 。那么需要对最大似然估计公式求导,求导结果即是要求下式达到最小:
MSE
M S E = 1 n ∑ i = 1 n ( y i − y i ^ ) 2 MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\widehat{y_i})^2 MSE=n1i=1∑n(yi−yi )2
其中n为样本总数(样本容量), y i ^ \widehat{y_i} yi 是估计值, y i y_i yi是真实值。
这个应用应该是最广的,因为他能够求导,所以经常作为 loss function。计算的结果就是你的预测值和真实值的差距的平方和。
MAE
M A E = 1 n ∑ i = 1 n ∣ y i − y i ^ ∣ MAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-\widehat{y_i}| MAE=n1i=1∑n∣yi−yi ∣
这个用的不是上面的平方项了,而是用了绝对值项。
R 2 R^2 R2
R 2 = 1 − ∑ i = 1 n ( y i − y i ^ ) 2 ∑ i = 1 n ( y i − y i ‾ ) 2 R^2=1-\frac{\sum_{i=1}^{n}(y_i-\widehat{y_i})^2}{\sum_{i=1}^{n}(y_i-\overline{y_i})^2} R2=1−∑i=1n(yi−yi)2∑i=1n(yi−yi )2
# 从 sklearn.datasets 导入波士顿房价数据读取器。
from sklearn.datasets import load_boston
# 从读取房价数据存储在变量 boston 中。
boston = load_boston()
# 输出数据描述。
print(boston.DESCR)
# 从sklearn.cross_validation 导入数据分割器。
from sklearn.model_selection import train_test_split
# 导入 numpy 并重命名为 np。
import numpy as np
X = boston.data
y = boston.target
# 随机采样 25% 的数据构建测试样本,其余作为训练样本。
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.25)
# 分析回归目标值的差异。
print("The max target value is", np.max(boston.target))
print("The min target value is", np.min(boston.target))
print("The average target value is", np.mean(boston.target))
# 从 sklearn.preprocessing 导入数据标准化模块。
from sklearn.preprocessing import StandardScaler
# 分别初始化对特征和目标值的标准化器。
ss_X = StandardScaler()
ss_y = StandardScaler()
# 分别对训练和测试数据的特征以及目标值进行标准化处理。
X_train = ss_X.fit_transform(X_train)
X_test = ss_X.transform(X_test)
y_train = ss_y.fit_transform(y_train.reshape(-1, 1))
y_test = ss_y.transform(y_test.reshape(-1, 1))
# 从 sklearn.linear_model 导入 LinearRegression。
from sklearn.linear_model import LinearRegression
# 使用默认配置初始化线性回归器 LinearRegression。
lr = LinearRegression()
# 使用训练数据进行参数估计。
lr.fit(X_train, y_train[:,0])
# 对测试数据进行回归预测。
lr_y_predict = lr.predict(X_test)
# 从 sklearn.linear_model 导入 SGDRegressor。
from sklearn.linear_model import SGDRegressor
# 使用默认配置初始化线性回归器 SGDRegressor。
sgdr = SGDRegressor()
# 使用训练数据进行参数估计。
sgdr.fit(X_train, y_train[:,0])
# 对测试数据进行回归预测。
sgdr_y_predict = sgdr.predict(X_test)
# 使用 LinearRegression 模型自带的评估模块,并输出评估结果。
print('The value of default measurement of LinearRegression is', lr.score(X_test, y_test))
# 从 sklearn.metrics 依次导入 r2_score、mean_squared_error 以及 mean_absoluate_error 用于回归性能的评估。
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
# 使用 r2_score 模块,并输出评估结果。
print('The value of R-squared of LinearRegression is', r2_score(y_test, lr_y_predict))
# 使用 mean_squared_error 模块,并输出评估结果。
print('The mean squared error of LinearRegression is',
mean_squared_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(lr_y_predict)))
# 使用 mean_absolute_error 模块,并输出评估结果。
print('The mean absoluate error of LinearRegression is',
mean_absolute_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(lr_y_predict)))
# 使用 SGDRegressor 模型自带的评估模块,并输出评估结果。
print('The value of default measurement of SGDRegressor is', sgdr.score(X_test, y_test))
# 使用 r2_score 模块,并输出评估结果。
print('The value of R-squared of SGDRegressor is', r2_score(y_test, sgdr_y_predict))
# 使用 mean_squared_error 模块,并输出评估结果。
print('The mean squared error of SGDRegressor is',
mean_squared_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(sgdr_y_predict)))
# 使用 mean_absolute_error 模块,并输出评估结果。
print('The mean absoluate error of SGDRegressor is',
mean_absolute_error(ss_y.inverse_transform(y_test), ss_y.inverse_transform(sgdr_y_predict)))
可以从这几个指标看出,随机梯度下降的拟合优度 R 方为 0.652225057163,均方误差为 26.966919284,平均绝对误差为 3.52149523303。从效果上说线性回归要略好一点,因为前者是解析法后者是估计,如果数据规模超过 10 万,那么用随机梯度下降比较好,节省时间。
参考文献:
[1] 李航. 统计学习方法[M]. 清华大学出版社, 北京, 2012.
[2] 周志华. 机器学习[M]. 清华大学出版社, 北京, 2016.
[3] 范淼,李超.Python 机器学习及实践[M].清华大学出版社, 北京, 2016.
[4] 吴恩达 机器学习CS229