统计学习导论 ·第2章·Statistical Learning

预测不易，预测未来更不易。 ---Yogi Berra

2.1 统计模型

建模变量：

数学表达式

输入变量（input variable), 又称预测变量（predictor）、自变量（independent）、属性（feature）
输出变量（output variable）,又称响应变量（response）、因变量（dependent）

2.1.1 Why Estimate f?为什么要估计f

预测（prediction）

f 是黑箱（black box）该黑箱能够提供准确预测Y，但是不追求f的确切形式，比如病人服用某种药物是否有后遗症、股票的涨跌等
推断（inference）
是自变量变化时，y到底怎样变化，发生多大变化。

2.1.2 如何估计f

参数方法-假设具体模型，然后训练数据，求出参数。（一般方法：光滑模型拟合很多不同的形式的函数 f，缺点：选定的模型并非与真正的 f 在形式上是一致的。）

最小二乘法估计线性回归
非参数方法 -追求接近数据点的估计，估计函数在去粗和光滑处理后极可能与更多的数据接近（优点：不限定 f 的具体形式，于是在更大范围里选择更适宜 f 形状的估计，缺点：*无法将估计 f 的问题简化到对少数参数的估计，需要大量的观测数据，拟合程度更强的模型需要更多的参数估计，复杂的模型容易导致 过拟合）

2.1.3 预测精度和模型解释性的权衡

建模的宗旨，如果是为了推断，那么采用结构限定的参数方法构建的模型解释性强，这种运用简单又相对光滑的统计学习方法具有明显优势。

解释性与预测精度

2.2 评价模型精度

There is no free lunch in statistics
在统计学中没有免房的午餐

没有任何一种方法能在各种数据集里完胜其他所有方法，这也是统计学最有魅力的地方

2.2.1 Measuring the Quality of Fit 拟合效果

均方误差MSE

均方误差公式

计算训练样本，称为 训练均方误差（training MSE), 计算测试样本称为 测试均方误差（testing MSE）, 通常我们并不关心这个模型在训练样本的表现，而真正的兴趣在于将模型用于测试数据获得怎样的预测精度。也就是说，需要一个方法选择模型，使得该模型的测试均值误差最小。一个误区就是，认为测试均值误差和训练样本误差之间的关系是总是正相关的，然而不一定。

测试均方差公式

例1

对于例1，黑色为真实数据模型函数 f, 对于f的估计，线性回归（橙）,两条光滑样条曲线（绿和蓝）, 方块表示对于这3种方法的两种均值误差。
衡量样条曲线的光滑滑程度是由自由度（degree of freedom), 自由度越大，代表对数据的拟合程度越大, (自由度大小：线性回归< 蓝色曲线< 绿色光滑曲线，限定性强弱：线性回归> 蓝色曲线> 绿色光滑曲线)。当光滑程度（flexibility）增大时，训练均值方差总是单调递减，绿色曲线是最小的training MSE,因为它是最大的光滑度。同时testing MSE 总体上是一个“ U”形态。

结论：当模型的光滑度增加，训练均方误差总是递减，测试均方误差不一定减少。

过拟合：当训练出来的模型训练误差较小而测试误差较大，则数据被过拟合。其存在的意义在于降低模型的平滑程度，可以减小测试均方误差。

例2中真实函数是接近线性的（黑色），接近于真实函数（蓝色），以及光环程度较大（绿色），显然训练均差仍然随着自由度增加而递减，而测试均差只是先稍微递减然后大幅度的递增，结论就是最小二乘的拟合的线性模型比高光滑的绿色线更适合测试样本。

例2

例3

例3中，真实函数是非线性的，无论测试还是训练的均值误差都是快速递减，然后缓慢增加。

2.2.2 The Bias-Variance Trade-Oﬀ 偏差-方差权衡

测试均方误差的“U”型曲线和训练均方误差的递减曲线表明，统计方法在计算方面存在两种博弈。

分析概念

个人理解：比如用一把尺子去测量一个物品长度，方差代表不同的人去测量这个物品，真实长度客观存在，不同的人测得的长度可能不同，那么就存在和真实长度的差距，也就是衡量差距的变化的方差。而偏差就是有的人用钢尺，有的人用激光测距仪，有的人用手比划，最终我们认为激光笔来测量比较好，但是不管什么技术，总存在和真实长度的偏差。

分析图

规律：一般来说光滑度较高的统计模型有较高的方差而较小的误差。
在选择一个模型时，方差和偏差要同时要小，然而增加方差也不一定就是减少偏差，这就有一个权衡的问题。

2.2.3 The Classiﬁcation Setting 分类模型

训练错误率（training error）

训练错误率公式
测试错误率（test error）

测试错误率公式

基于上式，test error存在最小值, 产生贝叶斯分类器（The Bayes Classiﬁer）

概率最大的最合理

在一个二元分类中：Pr(Y =1|X = x0) > 0.5，表示贝叶斯分类器将观测类别预测为1，因此存在区分类别的线，即贝叶斯决策边界

虚线为贝叶斯决策边界

因为贝叶斯分类器总是选择概率最大的类，于是在X =x0出产生的最低的错误率，即贝叶斯错误率：

贝叶斯错误率

K-Nearest Neighbors K最邻近方法
由于很难知道给定X后Y的条件概率，K最近邻（KNN）分类器就是用来计算这总条件概率的，其核心在于k的取值，也就是模型的光滑性

K = 3

K = 10

K =1 与 K = 100