Nstar-LDS

ESL3.4 学习笔记（奇异值分解与拉格朗日乘子法下的岭回归，Lasso回归，最小角回归及三者对比分析）

3.4 收缩的方法

这是一篇有关《统计学习基础》，原书名The Elements of Statistical Learning的学习笔记，该书学习难度较高，有很棒的学者将其翻译成中文并放在自己的个人网站上，翻译质量非常高，本博客中有关翻译的内容都是出自该学者的网页，个人解读部分才是自己经过查阅资料和其他学者的学习笔记，结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件，可在作者GitHub上查看下载。

原文	The Elements of Statistical Learning
翻译	szcf-weiya
时间	2018-08-21
解读	Hytn Chen
更新	2020-02-17

文章目录

3.4 收缩的方法

翻译原文
岭回归
个人解读

拉格朗日乘子法
奇异值分解

Lasso
讨论：子集的选择，岭回归，Lasso
最小角回归

个人解读
LAR 和 Lasso 自由度公式
个人解读

超级长文预警~

翻译原文

通过保留一部分预测变量而丢弃剩余的变量，子集选择 (subset selection) 可得到一个可解释的、预测误差可能比全模型低的模型．然而，因为这是一个离散的过程（变量不是保留就是丢弃），所以经常表现为高方差，因此不会降低全模型的预测误差．而收缩方法 (shrinkage methods) 更加连续，因此不会受 高易变性 (high variability) 太大的影响．

岭回归

岭回归 (Ridge regression) 根据回归系数的大小加上惩罚因子对它们进行收缩．岭回归的系数使得带惩罚的残差平方和最小

$\hat{\beta}^{ridge}=\underset{\beta}{\arg\min}\Big\{\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2+\lambda\sum\limits_{j=1}^p\beta_j^2\Big\}\tag{3.41}$

这里 $\lambda\ge 0$ 是控制收缩程度的参数： $\lambda$ 值越大，收缩的程度越大．每个系数都向零收缩．通过参数的平方和来惩罚的想法也用在了神经网络，也被称作权重衰减 (weight decay)（第 11 章）．

岭回归问题可以等价地写成

$\begin{aligned} \hat{\beta}^{ridge}&=\underset{\beta}{\arg\min}\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2\\ & \text{subject to }\sum\limits_{j=1}^p\beta_j^2 \le t \end{aligned} \tag{3.42}$

上式用参数显式表达了对回归参数大小的约束．

!!! note “weiya 注：”
式 $(3.41)$ 其实是对式 $(3.42)$ 应用 Lagrange 乘子法得到的．

$(3.41)$ 中的 $\lambda$ 和 $(3.42)$ 中的 $t$ 存在一一对应．当在线性回归模型中有许多相关变量，它们的系数可能很难确定且有高方差．某个变量的较大的正系数可以与相关性强的变量的差不多大的负系数相互抵消．通过对系数加入大小限制，如 $(3.42)$ ，这个问题能得以减轻．

!!! note “weiya 注：”
这里说的是，在没有对参数大小进行限制前，会存在一对相关性强的变量，它们系数取值符号相反，但绝对值差不多大，会大大增加方差，这也就是高方差的体现，但其实它们的合作用效果近似为 $0$ ，所以考虑引进对参数大小的惩罚．

对输入按比例进行缩放时，岭回归的解不相等，因此求解 $(3.41)$ 前我们需要对输入进行标准化．另外，注意到惩罚项不包含截距 $\beta_0$ ．对截距的惩罚会使得过程依赖于 $\mathbf{Y}$ 的初始选择；也就是，对每个 $y_i$ 加上常数 $c$ 不是简单地导致预测值会偏离同样的量 $c$ ．可以证明（练习 3.5）经过对输入进行中心化（每个 $x_{ij}$ 替换为 $x_{ij}-\bar x_j$ ）后， $(3.41)$ 的解可以分成两部分．我们用 $\bar y=\frac{1}{N}\sum_1^Ny_i$ 来估计 $\beta_0$ ．剩余的参数利用中心化的 $x_{ij}$ 通过无截距的岭回归来估计．今后我们假设中心化已经完成，则输入矩阵 $\mathbf X$ 有 $p$ （不是 $p + 1$ ）列．

!!! info “weiya 注：Ex. 3.5”
已解答，详细证明过程见 Issue 95: Ex. 3.5

将 $(3.41)$ 的准则写成矩阵形式

$\rm{RSS}(\lambda)=(\mathbf{y}-\mathbf{X}\beta)^T(\mathbf{y}-\mathbf{X}\beta)+\lambda\beta^T\beta \tag{3.43}$

可以简单地看出岭回归的解为

$\hat{\beta}^{ridge}=(\mathbf{X^TX}+\lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}\tag{3.44}$

其中 $\mathbf{I}$ 为 $p\times p$ 的单位矩阵．注意到选择二次函数惩罚 $\beta^T\beta$ ，岭回归的解仍是 $\mathbf{y}$ 的线性函数．解在求逆之前向矩阵 $\mathbf{X^TX}$ 的对角元上加入正的常数值．即使 $\mathbf{X^TX}$ 不是满秩，这样会使得问题非奇异，而且这是第一次将岭回归引入统计学中 (Hoerl and Kennard, 1970¹）的主要动力．传统的岭回归的描述从定义 (3.44) 开始．我们选择通过 (3.41) 和 (3.42) 来阐述，因为这两式让我们看清楚了它是怎样实现的．

图 3.8 展示了前列腺癌例子的岭回归系数估计，绘制成关于 $df(\lambda)$ 的函数图象， $df(\lambda)$ 为由惩罚 $\lambda$ 得到的有效自由度 (effective degrees of freedom)（由式 (3.50) 中定义）．在正交输入的情形下，岭回归估计仅仅是最小二乘估计的缩小版本，也就是 $\hat{\beta}^{ridge}=\hat{\beta}/(1+\lambda)$ ．

图 3.8 当惩罚参数 $\lambda$ 不同时，前列腺癌例子岭回归的变化曲线．画出系数关于有效自由度 $df(\lambda)$ 的曲线．垂直直线画在 $d f = 5.0$ 处，这是由交叉验证选择出来的．

当给定一个合适的先验分布，岭回归也可以从后验分布的均值或众数得到．具体地，假设 $y_i \sim N(\beta_0+x^T_i\beta,\sigma^2)$ ，参数 $\beta_j$ 的分布均为 $N(0,\tau^2)$ ，每个都相互独立．则当 $\tau^2$ 和 $\sigma^2$ 值已知时， $\beta$ 后验分布密度函数的对数值（的负数）与 (3.41) 中花括号里面的表达式成比例**(weiya 注：原文直接说与花括号的表达式相等，但应该是常数倍)**，且 $\lambda=\sigma^2/\tau^2$ （练习 3.6)．因此岭回归估计是后验分布的众数；又因分布为高斯分布，则也是后验分布的均值．

!!! info “weiya 注：Ex. 3.6”
将解答过程移至Issue 96: Ex. 3.6．

中心化输入矩阵 $\mathbf{X}$ 的奇异值分解 (SVD) 让我们进一步了解了岭回归的本质．这个分解在许多统计方法分析中非常有用． $N\times p$ 阶矩阵 $\mathbf{X}$ 的 SVD 分解有如下形式
$\mathbf{X=UDV^T}\tag{3.45}$

这里 $\mathbf{U}$ 和 $\mathbf{V}$ 分别是 $N\times p$ 和 $p\times p$ 的正交矩阵， $\mathbf{U}$ 的列张成 $X$ 的列空间， $\mathbf{V}$ 的列张成 $X$ 的行空间． $\mathbf{D}$ 为 $p\times p$ 的对角矩阵，对角元 $d_1\ge d_2 \ge \cdots \ge d_p \ge 0$ 称作 $\mathbf{X}$ 的奇异值．如果一个或多个 $d_j=0$ ，则 $\mathbf{X}$ 为奇异的．

weiya 注：（以下关于奇异值分解内容来自张贤达的《矩阵分析与应用》）

奇异值分解最早由Beltrami在1873年对实正方矩阵提出来的．Beltrami从双线性函数
$f(x,y)=x^TAy,\qquad A\in R^{n\times m}$
出发，通过引入线性变换
$x=U\xi,\qquad y=V\eta$
将双线性函数变为
$f(x,y)=\xi^TS\eta$
式中
$S=U^TAV$
若选择 $U$ 和 $V$ 为正交矩阵，则他们的选择各存在 $n^2-n$ 个自由度．他提出利用这些自由度使矩阵 $S$ 的非对角元为0，即矩阵 $S=\Sigma=diag(\sigma_1,\sigma_2,\ldots,\sigma_n)$ 为对角矩阵．则
$A=U\Sigma V^T$
这是Beltrami于1873年得到的实正方矩阵的奇异值分解．后来，Autonne于1902年把奇异值分解推广到复正方矩阵；Eckart与Young于1939年又进一步把它推广到一般的长方形矩阵．因此，现在常将任意复长方矩阵奇异值分解定理称为Autonee-Eckart-Young定理，详见下述

令 $A\in R^{m\times n}$ (或 $C^{m\times n}$ ),则存在正交（或酉）矩阵 $U\in R^{m\times m}$ (或 $C^{m\times m}$ )和 $V\in R^{n\times n}$ (或 $C^{n\times n}$ )使得
$A=U\Sigma V^T(or\quad U\Sigma V^H)$
式中
$\Sigma= \left[ \begin{array}{cc} \Sigma_1&O\\ O&O \end{array} \right]$
且 $\Sigma_1=diag(\sigma_1,\sigma_2,\ldots,\sigma_r)$ ,其对角元素按照顺序
$\sigma_1\gt \sigma_2\cdots\ge\sigma_r>0,\qquad r=rank(A)$
排列

以下说明来自wiki:
这里的奇异值分解称作Thin SVD
$M=U_n\Sigma_nV^T$
只有 $U$ 中对应 $V^T$ 中行向量的 $n$ 个列向量被计算， $U$ 的其它列不被计算． $U_n$ 为 $m\times n$ , $\Sigma_n$ 为 $n\times n$ 的对角矩阵， $V$ 是 $n\times n$

利用奇异值分解，通过简化我们可以把最小二乘拟合向量写成

$\begin{aligned} \mathbf{X}\hat{\beta}^{ls}&=\mathbf{X(X^TX)^{-1}X^Ty}\\ &=\mathbf{UU^Ty}\tag{3.46} \end{aligned}$

注意到 $\mathbf{U}^T\mathbf y$ 是 $\mathbf{y}$ 正交基 $\mathbf{U}$ 下的坐标．同时注意其与 (3.33) 的相似性； $\mathbf{Q}$ 和 $\mathbf{U}$ 是 $\mathbf{X}$ 列空间的两个不同的正交基（练习 3.8）．

!!! info “weiya 注：Ex. 3.8”
已解答，具体证明过程见 Issue 97: Ex. 3.8

现在岭回归的解为

$\begin{aligned} \mathbf{X}\hat{\beta}^{ridge}&=\mathbf{X}(\mathbf{X^TX}+\lambda \mathbf{I})^{-1}\mathbf{X^Ty}\\ &= \mathbf{UD}(\mathbf{D^2}+\lambda \mathbf{I})^{-1}\mathbf{DU^Ty}\\ &= \sum\limits_{j=1}^p\mathbf{u}_j\dfrac{d_j^2}{d_j^2+\lambda}\mathbf{u_j^Ty}\tag{3.47} \end{aligned}$

其中 $\mathbf{u}_j$ 是 $\mathbf{U}$ 的列向量．注意到因为 $\lambda \ge 0$ ，我们有 $d_j^2/(d^2_j+\lambda)\le 1$ ．类似线性回归，岭回归计算 $\mathbf{y}$ 关于正规基 $\mathbf{U}$ 的坐标．通过因子 $d^2_j/(d^2_j+\lambda)$ 来收缩这些坐标．这意味着更小的 $d_j^2$ 会在更大程度上收缩基向量的坐标．

$d_j^2$ 值小意味着什么？中心化后的矩阵 $\mathbf{X}$ 的奇异值分解是表示 $\mathbf{X}$ 中主成分变量的另一种方式．样本协方差矩阵为 $\mathbf{S=X^TX}/N$

$\mathbf{S={\color{red} E((X-EX)^T(X-EX))=}X^TX}/N$ ，并且从 (3.45) 式我们得到
$\mathbf{X^T X = VD^2V^T} \tag{3.48}$

上式是 $\mathbf{X^TX}$ （也是 $S$ ，取决于因子 $N$ ）的特征值分解 (eigen decomposition)．特征向量 $v_j$ （ $\mathbf{V}$ 的列向量）也称作 $\mathbf{X}$ 的主成分（或 Karhunen-Loeve）方向．第一主成分方向 $v_1$ 有下面性质： $\mathbf{z}_1=\mathbf{X}v_1$ 在所有 $\mathbf{X}$ 列的标准化线性组合中有最大的样本方差．样本方差很容易看出来是

$\rm{Var}(\mathbf{z}_1)=\rm{Var}(\mathbf{X}v_1)=\dfrac{d_1^2}{N}\tag{3.49}$

事实上 $\mathbf{z}_1=\mathbf{X}v_1=\mathbf{u}_1d_1$ ．导出变量 $\mathbf{z_1}$ 称作 $\mathbf{X}$ 的第一主成分，因此 $\mathbf{u_1}$ 是标准化的第一主成分．后面的主成分 $z_j$ 在与前一个保持正交的前提下有最大的方差 $d_j^2/N$ ．所以，最后一个主成分有最小的方差．因此越小的奇异值 $d_j$ 对应 $\mathbf{X}$ 列空间中方差越小的方向，并且岭回归在这些方向上收缩得最厉害．

图 3.9 展示了两个维度下部分数据点的主成分．如果我们考虑在这个区域（ $Y$ 轴垂直纸面）内拟合线性曲面，数据的结构形态使得确定梯度时长方向会比短方向更精确．岭回归防止在短方向上估计梯度可能存在的高方差．隐含的假设是响应变量往往在高方差的输入方向上变化．这往往是个合理的假设，因为我们所研究的预测变量随响应变量变化而变化，而不需要保持不变．

图 3.9 部分输入数据点的主成分．最大主成分是使得投影数据方差最大的方向，最小主成分是使得方差最小的方向．岭回归将 $\mathbf{y}$ 投射到这些成分上，然后对低方差成分的系数比高方差收缩得更厉害．

在图 3.7 中我们已经画了预测误差估计值关于 $df(\lambda)$ 的曲线

$\begin{aligned} df(\lambda)&=tr[\mathbf{X}(\mathbf{X^TX}+\lambda\mathbf{I})^{-1}\mathbf{X}^T]\\ &=tr(\mathbf{H}_{\lambda})\\ &=\sum\limits_{j=1}^p\dfrac{d_j^2}{d_j^2+\lambda}\tag{3.50} \end{aligned}$

上面 $\lambda$ 的单调递减函数是岭回归拟合的有效自由度 (effective degrees of freedom)．通常在含 $p$ 个变量的线性回归拟合中，拟合的自由度为 $p$ ，也就是无约束参数的个数．这里想法是尽管岭回归拟合中所有的 $p$ 个系数都不为 0，但是它们在由 $\lambda$ 控制的约束下拟合．注意到当 $\lambda=0$ （没有正则化）时 $df(\lambda)=p$ ，并且当 $\lambda\rightarrow \infty$ 时 $df(\lambda)\rightarrow 0$ ．当然总是对于截距总有一个额外的自由度，事先 (apriori) 已经去掉了．这个定义将在 3.4.4 节和 7.4-7.6 节中详细介绍．图 3.7 中最小值在 $df(\lambda)=5.0$ 处．表 3.3 表明岭回归将全最小二乘估计的测试误差降低了一小部分．

个人解读

拉格朗日乘子法

岭回归等式(3.41)其实就是对于(3.42)使用拉格朗日乘子法得到的，对于岭回归等式第一项其实几何意义上是一个椭圆形的抛物面，第二项几何意义上是一个圆柱形的抛物面，数学意义上第一项是最小二乘均方误差最小化，第二项是L2范数惩罚项。如果觉得前面的有关拉格朗日乘子法的介绍复杂，这篇博客中的简单介绍较易理解。

接下来原文给出了岭回归的参数解，其推导过程如下：
$\begin{aligned} R S S(\lambda) &=(y-\mathbf{X} \beta)^{T}(y-\mathbf{X} \beta)+\lambda \beta^{T} \beta \\ &=y^{T} y-2 \beta^{T} \mathbf{X}^{T} y+\beta^{T} \mathbf{X}^{T} \mathbf{X} \beta+\lambda \beta^{T} \beta \end{aligned}$
令误差RSS对 $\beta$ 的导数为0，则：
$\begin{aligned} &\nabla_{\beta} R S S(\lambda)=-2 \mathbf{X}^{T} y+2 \mathbf{X}^{T} \mathbf{X} \beta+2 \lambda \beta=0\\ &\Rightarrow\left(\mathbf{X}^{T} \mathbf{X}+\lambda I\right) \beta=\mathbf{X}^{T} y\\ &\Rightarrow \hat{\beta}^{r i d g e}=\left(\mathbf{X}^{T} \mathbf{X}+\lambda I\right)^{-1} \mathbf{X}^{T} \mathbf{y} \end{aligned}$
由此得到 $(3.44)$ 的结论。

作者在文中并没有定义什么是中心化输入矩阵 $X$ ，中心化一个矩阵代表对于这个矩阵的列进行normalization，令其均值为0，方差为1，用的就是如下算法：

首先令
$\mu_{j}=\frac{1}{n} \sum_{i=1}^{n} x_{i j}$
然后对于每一个 $x_j \in X$ ，将其替换为 $x_j-\mu_j$ 。之后令
$\sigma_{j}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i j}\right)^{2}$
再把每个 $x_j$ 替换为 $\frac{x_j}{\sigma_j}$ 。由此便可以对 $X$ 进行奇异值分解了。

奇异值分解

许多人会有所疑问，一般的奇异值分解两边的矩阵都是方阵，中间的矩阵不是，就如下图所示：

这和书中所分解的结果是不一样的，书中的U不是方阵，中间的是方阵，命名这样的分解方法是Thin SVD，那么两者有什么区别吗？

实际上没有区别，假设U和 $\Sigma$ 的乘积为B，矩阵B的每一列，对应的是矩阵U的线性组合的结果，对应的线性组合的系数，就是矩阵 $\Sigma$ 的各列。但是，矩阵 $\Sigma$ 的第N行以下全是0，所以线性组合的系数全是0，也就是U的第N列往后，对应的系数是0，他们根本没参与计算，所以可以直接丢掉，不影响结果。

那么再用奇异值分解之后的 $X=UDV^T$ （ $U$ 是 $X$ 的列空间， $V$ 是 $X$ 的行空间）来重新表示岭回归的解的推导过程如下：
$X^{T} X=V D U^{T} U D V^{T}=V D^{2} V^{T}$
那么岭回归系数表达式则变化如下
$\begin{aligned} \hat{\beta}^{\text {ridge }} &=\left(X^{T} X+\lambda I\right)^{-1} X^{T} \mathbf{y} \\ &=\left(V D^{2} V^{T}+\lambda V V^{T}\right)^{-1} V D U^{T} \mathbf{y} \\ &=\left(V\left(D^{2}+\lambda I\right) V^{T}\right)^{-1} V D U^{T} \mathbf{y} \\ &=V\left(D^{2}+\lambda I\right)^{-1} D U^{T} \mathbf{y} \end{aligned}$
注意 $V$ 是标准正交方阵，标准正交方阵的逆就是其转置，这就解释了上式倒数第二步如何变为最后一步。有关正交方阵的逆就是其转置证明如下：

因为是标准正交方阵，所以 $V^TV=I$ ，这个等式证明很好理解，标准正交基的意思，就是空间中的单位正交基，各个基之间正交，转置乘以本身的结果中，对角元素就是各个基和本身相乘，也就是各个基向量的模，所以是1，非对角元素，就是各个基向量和别的基向量的乘积，相互正交，所以是0，所以结果是单位阵。那再在等式两边乘 $V^{-1}$ ，就得最终结果
$V^T=V^{-1}$
得到岭回归系数新的表达式之后，就可继续推得最终预测值为
$\hat{y}^{\text {ridge }}=X \hat{\beta}^{\text {ridge }}=U D\left(D^{2}+\lambda I\right)^{-1} D U^{T} \mathbf{y}$
注意 $D\left(D^{2}+\lambda I\right)^{-1} D$ 是对角元素为 $\dfrac{d_j^2}{d_j^2+\lambda}$ 的对角阵，令 $u_j$ 为 $U$ 的列向量，可得最终结果
$\hat y^{ridge}=\sum\limits_{j=1}^p\mathbf{u}_j\dfrac{d_j^2}{d_j^2+\lambda}\mathbf{u_j^Ty}$
此时看看最小二乘的对 $X$ 进行奇异值分解代入后的预测值是什么形式
$\begin{aligned} \hat{y}^{\mathrm{ls}}=X \hat{\beta}^{\mathrm{ls}} &=U D V^{T}\left(V D^{2} V^{T}\right)^{-1} V D U^{T} \mathrm{y} \\ &=U D V^{T}\left(V^{-T} D^{-2} V^{-1}\right) V D U^{T} \mathrm{y} \\ &=U U^{T} \mathrm{y} \\ &=\sum_{j=1}^{p} u_{j}\left(u_{j}^{T} \mathrm{y}\right) \end{aligned}$
由此可见，岭回归中， $u_{j}^{T} \mathrm{y}$ 的内积现在被 $\dfrac{d_j^2}{d_j^2+\lambda}$ 收缩了。

所以这就印证了越大的 $\lambda$ 或越小的 $d_j$ 会更大程度上收缩基向量的坐标。

之后就提及了特征值分解，有关特征值分解和奇异值分解的几何意义可以参考这篇博客，更加有助于直观理解，但博客中的内容和书中的理解还仍有差异，而这篇博客中提及的概念同样有助浅层理解，想形成属于自己体系的理解还是跟着本书的思想走。

特征值分解过后，对于第一主成分方向上样本方差的表达式证明如下
$\begin{aligned} \operatorname{Var}\left(\mathbf{X} v_{i}\right)=& v_{i}^{T} \operatorname{Var}(\mathbf{X}) v_{i} \\ =& v_{i}^{T}\left(\frac{\mathbf{X}^{T} \mathbf{X}}{N}\right) v_{i} \\ =& v_{i}^{T} \mathbf{V D}^{2} \mathbf{V}^{T} v_{i} / N \end{aligned}$
由于V是标准正交矩阵，非对角元素相乘，就是各个基向量和别的基向量的乘积，相互正交，所以是0。因此上式就
$v_{i}^{T} v_{i} d_{i}^{2} v_{i}^{t} v_{i} / N$
对角元素相乘就是各个基和本身相乘，也就是各个基向量的模，所以是1，所以最终可得
$\operatorname{Var}\left(\mathbf{X} v_{i}\right)=\frac{d_{i}^{2}}{N}$
由此引出重要结论：越小的奇异值 $d_j$ 对应 $\mathbf{X}$ 列空间中方差越小的方向，并且岭回归在这些方向上收缩得最厉害。

接下来就要讲到Lasso回归了，岭回归与Lasso回归最终都实现了约束参数防止过拟合的效果，但Lasso可将作用小的特征的参数直接训练成0，从而实现了特征筛选降维的操作，因此Lasso回归也被称为是温和的连续子集选择。

Lasso

!!! note “weiya 注：”
lasso 是 “Least absolute shrinkage and seleetion operator” 的首字母缩写．

lasso 像岭回归一样是个收缩方法，有微妙但很重要的区别．lasso 估计定义如下

$\begin{aligned} \hat{\beta}^{lasso}&=\underset{\beta}{\arg\min}\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2\\ &\text{subject to }\sum\limits_{j=1}^p\vert\beta_j\vert\le t \tag{3.51} \end{aligned}$

正如在岭回归中一样，我们可以通过标准化预测变量来对常数 $\beta_0$ 再参量化； $\hat{\beta}_0$ 的解为 $\bar{y}$ ，并且后面我们拟合无截距的模型（练习 3.5）．

!!! info “weiya 注：Ex. 3.5”
已解答，详细证明过程见 Issue 95: Ex. 3.5

在信号处理中，lasso 也被称作 basis pursuit (Chen et al., 1998²)

我们也可以把 lasso 问题等价地写成拉格朗日形式 (Lagrangian form)

$\hat{\beta}^{lasso}=\underset{\beta}{\arg\min}\Big\{\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2+\lambda\sum\limits_{j=1}^p\vert\beta_j\vert\Big\}\tag{3.52}$

注意到这与岭回归问题 (3.42) 或 (3.41) 的相似性： $L_2$ 的岭回归惩罚 $\sum_1^p\beta^2_j$ 替换为 $L_1$ 的 lasso 惩罚 $\sum_1^p\vert\beta_j\vert$ ．后一约束使得解在 $y_i$ 处非线性，并且在岭回归中没有相近的表达式．计算 lasso 的解是一个二次规划问题，尽管我们在 3.4.4 节看到当 $\lambda$ 不同时计算解的整个路径存在与岭回归同样计算量的有效算法．由于该约束的本质，令 $t$ 充分小会造成一些参数恰恰等于 0．因此 lasso 完成一个温和的连续子集选择．如果所选的 $t$ 大于 $t_0=\sum_1^p\vert\hat{\beta}_j\vert$ （其中 $\hat{\beta}_j=\hat{\beta}_j^{ls}$ ， $\hat{\beta}_j^{ls}$ 为最小二乘估计），则 lasso 估计为 $\hat{\beta}_j$ ．另一方面，当 $t=t_0/2$ ，最小二乘系数平均收缩 $50\%$ ．然而，收缩的本质不是很显然，我们将在 3.4.4 节进一步研究．类似在变量子集选择中子集的大小，或者岭回归的惩罚参数，应该自适应地选择 $t$ 使预测误差期望值的估计最小化．

图 3.7 中，为了方便解释，我们已经画出 lasso 的预测误差估计关于标准化参数 $s=t/\sum^p_1\vert\hat{\beta}_j\vert$ 的曲线．通过 10 折交叉验证选择 $s\approx 0.36$ ；这使得 4 个系数为 0（表 3.3 的第 5 列）．最终模型有第二低的测试误差，比全最小二乘模型略低，但是测试误差估计的标准误差（表 3.3 的最后一行）相当大．

图 3.10 显示了当惩罚参数 $s=t/\sum_1^p\vert\hat{\beta}_j\vert$ 不同时的 lasso 系数．当 $s = 1.0$ 时为最小二乘估计；当 $s\rightarrow 0$ 时下降为 0．该下降不总是严格单调的，尽管例子中确实是．在 $s = 0.36$ 处画了垂直直线，该值通过交叉验证来选择．

图 3.10 当惩罚参数 $t$ 变化时的 lasso 系数曲线．图中画了系数关于 $s=t/\sum^p_1\vert\hat{\beta}_j\vert$ 的曲线．垂直直线画在 $s = 0.36$ 处，该值通过交叉验证来选择．比较 65 页的图 3.8，lasso 曲线会达到 0，然而岭回归不会．曲线是分段线性的，所以只计算显示点处的值；详见 3.4.4 节．

讨论：子集的选择，岭回归，Lasso

这部分我们讨论并且比较至今为止有约束的线性回归模型的三种方法：子集选择、岭回归和 lasso．

在正交输入矩阵的情况下，三种过程都有显式解．每种方法对最小二乘估计 $\hat{\beta}_j$ 应用简单的变换，详见表 3.4．

表 3.4 在 $\mathbf{X}$ 为正规列情形下 $\beta_j$ 的估计值． $M$ 和 $\lambda$ 是通过对应的手段选择的常数；符号标记变量的符号（ $\pm 1$ ），而且 $x_+$ 记 $x$ 的正数部分．下面的表格中，估计值由红色虚线来显示．灰色的 $45^{\circ}$ 直线作为参照显示了无约束的估计．

岭回归做等比例的收缩．lasso 通过常数因子 $\lambda$ 变换每个系数，在 0 处截去．这也称作“软阈限”，而且用在 5.9 节中基于小波光滑的内容中．最优子集选择删掉所有系数小于第 $M$ 个大系数的变量；这是“硬阈限”的一种形式．

回到非正交的情形，一些图象可以帮助了解它们之间的关系．当只有两个参数时图 3.11 描绘了 lasso（左）和岭回归（右）．残差平方和为椭圆形的等高线，以全最小二乘估计为中心．岭回归的约束区域为圆盘 $\beta_1^2+\beta_2^2\le t$ ，lasso 的约束区域为菱形 $\vert\beta_1\vert+\vert\beta_2\vert\le t$ ．两种方式都寻找当椭圆等高线达到约束区域的第一个点．与圆盘不同，菱形 (diamond) 有角；如果解出现在角上，则有一个参数 $\beta_j$ 等于 0．当 $p > 2$ ，菱形变成了偏菱形 (rhomboid)，而且有许多角，平坦的边和面；对于参数估计有更多的可能为 0．

图 3.11 lasso (左)和岭回归（右）的估计图象．图中显示了误差的等高线和约束函数．实心蓝色区域分别为约束区域 $\vert\beta_1\vert+\vert\beta_2\vert\le t$ 以及 $\beta^2_1+\beta_2^2\le t^2$ ，红色椭圆为最小二乘误差函数的等高线．

我们可以把岭回归和 lasso 一般化，并且可以看成是贝叶斯估计．考虑下面准则
$\tilde{\beta}=\underset{\beta}{\arg\min}\Big\{\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2+\lambda\sum\limits_{j=1}^p\vert\beta_j\vert^q\Big\}\tag{3.53}$

其中 $q\ge 0$ ．图 3.12 显示了两个输入情形下常数值 $\sum_j\vert\beta_j\vert^q$ 的等高线．

图 3.12 给定值 $q$ 下常数值 $\sum_j\vert\beta_j\vert^q$ 的等高线．

将 $\vert\beta_j\vert^q$ 看成 $\beta_j$ 的先验概率密度的对数值，同样有参数先验分布的等高线． $q = 0$ 对应变量子集选择，惩罚项是简单地统计非零参数的个数； $q = 1$ 对应 lasso， $q = 2$ 对应岭回归．注意到 $q\le 1$ ，先验在各方向上不是均匀的，而是更多地集中在坐标方向上．对应 $q = 1$ 情形的先验分布是关于每个输入变量是的独立的二重指数分布（或者 Laplace 分布），概率密度为 $(1/2\tau)exp(-\vert\beta\vert)/\tau$ 并且 $\tau=1/\lambda$ ． $q = 1$ 的情形（lasso）是使得约束区域为凸的最小 $q$ 值；非凸约束区域使得优化问题很困难．

从这点看，lasso、岭回归和最优子集选择是有着不同先验分布的贝叶斯估计．然而，注意到它们取自后验分布的众数，即最大化后验分布．在贝叶斯估计中使用后验分布的均值更加常见．岭回归同样是后验分布的均值，但是 lasso 和最优子集选择不是．

再一次观察准则 (3.53)，我们可能尝试除 0，1，2 外的其它 $q$ 值．尽管有人可能从数据中估计 $q$ ，我们的经验表明引入额外的方差不值得． $q\in (1,2)$ 表明在 lasso 和岭回归之间进行权衡．当 $q > 1$ 时尽管 $\vert\beta_j\vert^q$ 在 0 处可导，但是并没有lasso（ $q = 1$ ）的令系数恰巧为零的性质．部分由于这个原因并且考虑计算易处理，Zou and Hastie (2005)³ 引入弹性惩罚

$\lambda \sum\limits_{j=1}^p(\alpha\beta_j^2+(1-\alpha)\vert\beta_j\vert)\tag{3.54}$

这是一种岭回归和 lasso之间的平衡．图 3.13 比较了 $q = 1.2$ 下的 $L_q$ 惩罚以及 $\alpha=0.2$ 的弹性网惩罚；很难从肉眼来观察出差异．弹性网像 lasso 一样选择变量，同时像岭回归一样收缩相关变量的系数．同时考虑了 $L_q$ 惩罚的计算优势．我们将在 18.4节介绍弹性网惩罚．

图3.13 $q = 1.2$ 时 $\sum_j\vert\beta_j\vert^q$ 为常数值的轮廓线（左图）以及 $\alpha=0.2$ 时弹性网惩罚 $\sum_j(\alpha\beta_j^2+(1-\alpha)\vert\beta_j\vert)$ 为常数值的轮廓线（右图）．尽管看起来很相似，弹性网有尖角（不可导），而 $q = 1.2$ 的惩罚不会有尖角．

最小角回归

最小角回归 (LAR) 是相对较新的方法 (Efron et al., 2004⁴)，而且可以看成是一种向前逐步回归（3.3.2 节）的“民主 (democratic)”版本．正如我们将看到的，LAR 与 lasso 联系紧密，并且事实上提供了如图 3.10 所示的计算整个 lasso 路径的非常有效的算法．

!!! note “weiya 注：”
在 Efron 的论文中，最小角回归缩写为 LARS，我们这里仍以 ESL 书上的缩写为准——LAR

向前逐步回归逐步建立模型，每次添加一个变量．每一步，它选出最好的变量加入活跃集，然后更新最小二乘来加入所有的活跃变量．

最小角回归采用类似的策略，但是仅仅加入一个变量应有的程度．第一步它确定与响应变量最相关的变量．不是完全的拟合该变量，LAR 使得该变量的系数向最小二乘值连续变化（使得它与进化的残差之间的相关系数绝对值降低）．只要其他变量与残差的相关性与该变量和残差的相关性相等，则该过程暂停．第二个变量加入活跃集，然后它们的系数一起以保持相关性相等并降低的方式变化．这个过程一直继续直到所有的变量都在模型中，然后在全最小二乘拟合处停止．算法 3.2 给出了详细过程．第 5 步的终止条件需要一些解释．如果 $p > N - 1$ ，LAR 算法经过 $N - 1$ 步达到 0 残差解（ $- 1$ 是因为我们已经对数据进行了中心化）

算法 3.2 最小角回归

对预测变量进行标准化处理得到零均值和单位范数．以残差向量 $\mathbf{r=y-\bar{y}},\beta_1,\ldots,\beta_p=0$ 开始．
找出与 $\mathbf{r}$ 最相关的预测变量 $\mathbf x_j$
从 0 开始移动 $\beta_j$ 一直到最小二乘系数 $\langle\mathbf x_j, \mathbf r\rangle$ ，直到存在其它的预测变量 $\mathbf x_k$ 使得其与当前残差的相关性等于 $\mathbf x_j$ 与当前残差的相关性．（Hytn注：相关性相等几何意义上就是角平分线）
再由当前残差在 $(\mathbf x_j,\mathbf x_k)$ 上的联合最小二乘系数方向上移动 $\beta_j$ 和 $\beta_k$ ，直到存在其它的预测变量 $x_l$ 与当前残差的相关性和当前残差与 $(\mathbf x_j,\mathbf x_k)$ 的相关性相等．
按这种方式继续直到所有的 $p$ 个预测变量加入到模型中．经过 $\min(N-1, p)$ 步，我们达到了全最小二乘的解．

!!! tip “weiya 注：LAR 示意图”
结合原论文的示意图能帮助理解最小角回归的逻辑．

(Hytn注：就是不断尝试以最快的方向迅速拟合到预测变量，图中预测变量和 $x_1$ 的夹角小，所以在 $x_1$ 方向上前进一段距离，令当前点和预测变量间的向量 $\mu_2$ 形成二等分线，)

假设 $\mathcal A_k$ 是第 $k$ 步开始时的变量活跃集， $\beta_{\mathcal A_k}$ 是这一步中变量的系数向量；其中有 $k - 1$ 个非零值，刚刚进入的变量系数值为 0．如果当前残差为 $\mathbf r_k=\mathbf y-\mathbf X_{\mathcal A_k}\beta_{\mathcal A_k}$ ，则当前步的方向为
$\delta_k=(\mathbf X^T_{ \mathcal A_k}\mathbf X_{\mathcal A_k})^{-1}\mathbf X^T_{\mathcal A_k}\mathbf r_k \tag{3.55}$

然后系数迭代为 $\beta_{\mathcal A_k} (\alpha) = \beta_{\mathcal A_k} + \alpha · \delta_k$ ．练习 3.23 证明这种方式下选择的方向满足断言：保持（各个预测变量与残差间的）相关系数相等和递减（tied and decreasing）．

!!! info “weiya 注：Ex. 3.23”
已解决，具体证明过程参见Issue 100: Ex. 3.23．起初翻译时，对 tied 的理解不够，通过求解该练习题，认为 tied 意思其实就是各个预测变量与残差之间的相关系数保持相等．

如果该步的开始拟合向量为 $\hat{\mathbf f}_k$ ，则迭代为 $\hat{\mathbf f}_k(\alpha)=\mathbf f_k+\alpha\cdot\mathbf u_k$ ，其中 $\mathbf u_k=\mathbf X_{\mathcal A_k}\delta_k$ 是新的拟合方向．“最小角”由该过程的几何解释得到； $\mathbf u_k$ 使得活跃集 ${\mathcal A}_k$ 中预测变量间的角度最小（练习 3.24）．

!!! info “weiya 注：Ex. 3.24”
已解决，详见 Issue 101: Ex. 3.24，欢迎交流讨论．

图 3.14 使用模拟数据显示了相关系数的绝对值下降以及每一步 LAR 算法中变量进入的顺序．

图 3.14：通过 6 个预测变量的拟合数据集，每一步 LAR 过程中的相关性绝对值的变化．图象上方的标签表示在每一步哪些变量加进了活跃集．步长是用单位 $L_1$ 弧长来测量的．

由构造知 LAR 的系数以一种分段线性的方式进行改变．图 3.15（左图）显示了 LAR 系数曲线作为 $L_1$ 弧长的函数曲线．

!!! note “weiya 注：原书脚注”
$L_1$ arc length：可导曲线 $\beta(s), s \in [0,S]$ 的 $L_1$ 弧长为 $TV(\beta,S)=\int_0^S\Vert\dot{\beta}(s)\Vert_1ds$ ，其中 $\dot{\beta}(s)=\partial\beta(s)/\partial s$ ．对于分段 LAR 函数曲线，这相当于从这一步到下一步系数的 $L_1$ 范数变化之和．

图 3.15：左图显示了 LAR 系数作为 $L_1$ 长度的函数在模拟数据上的图象．右图显示了 Lasso 的图象．它们大概在 $L_1$ 弧长为 18 之前（深蓝色的系数曲线通过 0）都是完全相同的.

注意到我们不需要走很小的步以及重新检查步骤 3 的相关系数；应用预测变量的协方差和算法的分段线性性质，我们可以在每一步开始计算出确切的步长（练习 3.25）．

!!! info “weiya 注：Ex. 3.25”
已解决，详见 Issue 98: Ex. 3.25，欢迎讨论交流！

图 3.15 的右图展示了对同样数据的 lasso 系数曲线．几乎与左图相同，当绿色曲线通过 0 时首次出现不同．对于前列腺癌数据，LAR 系数曲线显示与图 3.10 的 lasso 曲线相同，该曲线从不经过 0．这些观测值促使对 LAR 算法进行简单修改，给出了整个 lasso 路径，它同样也是分段线性的．

算法 3.2a 最小角回归：Lasso修正

4a. 如果一个非零的系数达到0，则从变量的活跃集中删除该变量并且重新计算当前的联合最小二乘方向．

LAR(lasso) 算法是非常有效的，需要用 $p$ 个预测变量的单最小二乘拟合的相同步骤进行计算．最小角回归总是需要 $p$ 步达到全最小二乘估计．lasso 路径可能超过 $p$ 步，尽管这两者经常是非常相似的．经过 lasso 修正的 3.2a 的算法 3.2 是计算任何一个lasso 问题的有效方式，特别是当 $p > > N$ ．Osborne et al. (2000a)⁵ 也发现了计算 lasso 的分段线性的路径，他们称之为同伦 (homotopy) 算法．

我们已经给出一个为什么这些过程很相似的启发式的论据．尽管 LAR 算法是用相关性来叙述的，但如果输入特征是标准化的，它与内积是等价的并且用内积更简单．假设 $\mathcal A$ 是算法中某些步的变量活跃集，它们与当前残差 $\mathbf y -\mathbf X\beta$ 的内积的绝对值是结合在一起的．我们可以表达成

$\mathbf x_j^T(\mathbf y-\mathbf X\beta)=\gamma\cdot s_j,\forall j\in {\mathcal A} \tag{3.56}$

其中 $s_j\in\{-1,1\}$ 表示内积的符号， $\gamma$ 是普通的数值．并且 $\vert \mathbf x_k^T(\mathbf y-\mathbf X\beta)\vert\le \gamma\; \forall k\notin \mathcal A$ ．现在我们考虑 (3.52) 的 lasso 准则，我们可以写成向量形式

$R(\beta)=\frac{1}{2}\Vert\mathbf y-\mathbf X\beta\Vert_2^2+\lambda\Vert\beta\Vert_1\tag{3.57}$

令 $\mathcal B$ 为在给定 $\lambda$ 值下解中的变量的活跃集．对于这些变量 $R(\beta)$ 是可导的，并且平稳条件 (stationary condition) 为(Hytn注：也就是活跃变量导数为0的时候)

$\mathbf x_j^T(\mathbf y-\mathbf X\beta)=\lambda\cdot \rm{sign}(\beta_j),\forall j\in {\mathcal B}\tag{3.58}$

比较 3.58 和 3.56 ，我们看到只有当 $\beta_j$ 的符号与内积的符号相同时，这两个等式才相同．这也就是为什么 LAR 算法和 lasso 当一个活跃系数经过零开始出现不同；对于不满足条件 3.58 的变量，会被踢出活跃集 $\mathcal B$ ．练习 3.23 证明了这些等式表明随 $\lambda$ 减小的分段线性系数曲线．对于不活跃的变量的平稳条件要求

$\vert\mathbf x_k^T(\mathbf y-\mathbf X\beta)\vert\le\lambda,\forall k\notin{\mathcal B}\tag{3.59}$

这与 LAR 算法一致．

图 3.16：LAR、lasso、向前逐步、向前逐渐（FS）和增长向前逐渐（ $FS_0$ ）回归之间的比较．设定与图3.6相同，除了这里 $N = 100$ 而不是300.这里较慢的 $F S$ 回归最终表现得比向前逐步好．LAR和lasso表现得和FS、 $FS_0$ 相似．因为这些过程采取不同的步数（根据模拟复制和方法），我们画出最小二乘拟合的MSE关于整体 $L_1$ 弧长的片段的函数．

图 3.16 将 LAR 和 lasso 与向前逐步（forward stepwise）和向前逐渐（forward stagewise）回归进行比较．设定与图 3.6 是相同的，除了这里的 $N = 100$ 而不是 $300$ ，所以这个问题更加困难．我们可以看到增长性更快的向前逐步很快地过拟合（10 个变量加入模型中之前是很好的），最终比增长性较慢的向前逐渐回归表现得更差．LAR 和 lasso 的行为与向前逐渐回归相似．增长的向前逐渐回归与 LAR 和 lasso 类似，并且将在 3.8.1 节中描述．

个人解读

书中对于最小角回归的描述如下

首先对于所有的predictors做一个中心化处理（均值0，单位方差），开始的时候所有的回归系数都是0，除了截距以外，刚开始的残差就是 $r=y-\bar y$ ， $\beta_0=\bar y$ 。

现在k=1进行第一步，找到和当前残差 $r_1=y-\bar y$ 最相关的 predictor $x_j$ 。此时就有激活的方向 $\mathcal{A}_{1}=\left\{x_{j}\right\}$ 和激活的系数 $\beta_{\mathcal{A}_{1}}=[0]$ 。

把 $\beta_j$ 从初值0向着该值移动
$\delta_{1}=\left(X_{\mathcal{A}_{1}}^{T} X_{\mathcal{A}_{1}}\right)^{-1} X_{\mathcal{A}_{1}}^{T} r_{1}=\frac{x_{j}^{T} r_{1}}{x_{j}^{T} x_{j}}=x_{j}^{T} r_{1}$
注意这个值的几何意义，就是残差 $r_1$ 在最相关方向 $x_j$ 上面的投影，也就是回归系数的最小二乘值，为什么不直接移动满就是算法的特性，停止条件就是出现另一个和残差的相关性跟当前predictor一样的predictor。那么移动到底多少，就有如下表达式说明
$\beta_{\mathcal{A}_{1}}(\alpha) \equiv \beta_{\mathcal{A}_{1}}+\alpha \delta_{1}=0+\alpha x_{j}^{T} r_{1}=\left(x_{j}^{T} r_{1}\right) \alpha \quad \text { for } \quad 0 \leq \alpha \leq 1$
得出回归系数之后实际移动的路径（也代表已经拟合好的值）就为
$\hat{f}_{1}(\alpha)=X_{\mathcal{A}_{1}} \beta_{\mathcal{A}_{1}}(\alpha)=\left(x_{j}^{T} r_{1}\right) \alpha x_{j}$
那么还剩下的残差就是
$r(\alpha)=y-\bar{y}-\alpha\left(x_{j}^{T} r_{1}\right) x_{j}=r_{1}-\alpha\left(x_{j}^{T} r_{1}\right) x_{j}$
那么当前predictor和这个残差的联系就可描述为
$x_{j}^{T}\left(r_{1}-\alpha\left(x_{j}^{T} r_{1}\right) x_{j}\right)=x_{j}^{T} r_{1}-\alpha\left(x_{j}^{T} r_{1}\right)=(1-\alpha) x_{j}^{T} r_{1}$
而其他predictor例如 $x_k$ 和这个残差的联系就是
$x_{k}^{T}\left(r_{1}-\alpha\left(x_{j}^{T} r_{1}\right) x_{j}\right)=x_{k}^{T} r_{1}-\alpha\left(x_{j}^{T} r_{1}\right) x_{k}^{T} x_{j}$

LAR 和 Lasso 自由度公式

假设我们通过最小角回归过程拟合了线性模型，在某步 $k < p$ 停止，或者等价地用 lasso 的界 $t$ 得到约束情况下的全最小二乘拟合．我们需要多少参数，或者自由度？

首先考虑采用 $k$ 个特征的子集的线性回归．如果这个子集是没有通过训练数据而事先确定好的，然后在该拟合模型中的自由度定义为 $k$ ．当然，在经典统计学中，线性独立参数的个数也就是自由度．另外地，假设我们用一个最优子集选择确定了最优的 $k$ 个预测变量．于是结果模型中有 $k$ 个参数，但在某种意义上我们用了大于 $k$ 个的自由度．

我们需要一个对于自适应拟合模型的有效自由度的一般定义．我们定义拟合向量 $\hat{\mathbf y}=(\hat y_1,\hat y_2,\ldots,\hat y_N)$ 的自由度为
$\rm{df}(\hat{\mathbf y})=\frac{1}{\sigma^2}\sum\limits_{i=1}^N\rm{Cov}(\hat y_i,y_i)\tag{3.60}$
这里 $\rm{Cov}(\hat y_i,y_i)$ 指的是预测值 $\hat y_i$ 和其对应的输出向量 $y_i$ 之间的协方差．直观上看有意义：当拟合数据越困难，协方差会越大，从而 $\rm{df}(\hat{\mathbf y})$ 越大．表达式（3.60）是一个有用的自由度的概念，可以应用到任何模型的预测向量 $\hat{\mathbf y}$ ．其中包括那些对训练数据自适应拟合的模型．这个定义将在 7.4-7.6 节中进一步讨论．

现在对于有 $k$ 个固定预测变量的线性回归模型，可以简单地证明 $\rm{df}(\hat{\mathbf y})=k$ ．同样地，对于岭回归，这一定义导出表达式（3.50）的闭型解 (closed-form)： $\rm{df}(\hat{\mathbf{y}})=\rm{tr}(\mathbf S_\lambda)$ ．

!!! note “weiya 注：closed form expression”
根据 wiki: Closed-form expression，closed-form 是指可以进行有限次赋值的表达式，依此理解，有显示解的为 closed form．

在这些情况下，(3.60) 可以很简单地进行赋值因为 $\hat{\mathbf{y}}=\mathbf{H}_\lambda\mathbf y$ 关于 $\mathbf y$ 是线性的．如果我们考虑在大小为 $k$ 的最优子集选择中的定义 (3.60)，似乎显然有 $\rm{df}(\hat{\mathbf y})$ 会大于 $k$ ，并且可以通过运用模拟的方法直接地估计 $\rm{Cov}(\hat y_i,y_i)/\sigma^2$ 来验证．然而估计最优子集选择的 $\rm{df}(\hat{\mathbf y})$ 没有闭形式 (closed form)．

对于 LAR 和 lasso，会发生很奇怪的事情．这些技巧的自适应方式比最优集选择更加光滑，因此估计自由度会更加地难以驾驭．特别地，可以证明经过 $k$ 步 LAR 过程，拟合向量的有效自由度恰巧是 $k$ ．对于 lasso，（改进的）LAR 过程经常需要多余 $k$ 的步骤，因为可以删去预测变量．因此，定义有点不一样；对于 lasso，在任一小步 $\rm{df}(\hat{\mathbf y})$ 近似等于模型中预测变量的个数．然而这种近似在 lasso 路径中的任何地方都表现得很好，但是对于每个 $k$ ，它在包含 $k$ 个预测变量的序列中最后一个模型表现得最好．关于 lasso 自由度详细的研究或许可以在 Zou et al. (2007)⁶ 中找到．

个人解读

关于有效自由度的定义式书中虽已经给出，但是如何理解呢，有的学者通过用它计算OLS和岭回归的自由度创造了感性理解的机会。

首先，下面等式中左右两部分是等价的变换
$\operatorname{cov}\left(\hat{y}_{i}, y_{i}\right)=\operatorname{cov}\left(e_{i}^{T} \hat{y}, e_{i}^{T} y\right)=e_{i}^{T} \operatorname{cov}(\hat{y}, y) e_{i}$
而对于最小二乘来说，预测变量的估计值 $\hat{y}=X \hat{\beta}^{\mathrm{ls}}=X\left(X^{T} X\right)^{-1} X^{T} y$ ，所以上式可转变为
$\operatorname{cov}(\hat{y}, y)=X\left(X^{T} X\right)^{-1} X^{T} \operatorname{cov}(y, y)=\sigma^{2} X\left(X^{T} X\right)^{-1} X^{T}$
上式最后两步是怎么得出来的，这是有关协方差的相关概念， $\operatorname{cov}(y, y)=\sigma^{2} I$ ，因此
$\operatorname{cov}\left(\hat{y}_{i}, y_{i}\right)=\sigma^{2} e_{i}^{T} X\left(X^{T} X\right)^{-1} X^{T} e_{i}=\sigma^{2}\left(X^{T} e_{i}\right)\left(X^{T} X\right)^{-1}\left(X^{T} e_{i}\right)$
这里的 $X^Te_i=x_i$ ，所以原式等于
$\begin{aligned} \operatorname{df}(\hat{y}) &=\sum_{i=1}^{N} x_{i}^{T}\left(X^{T} X\right)^{-1} x_{i} \\ &=\sum_{i=1}^{N} \operatorname{trace}\left(x_{i}^{T}\left(X^{T} X\right)^{-1} x_{i}\right) \\ &=\sum_{i=1}^{N} \operatorname{trace}\left(x_{i} x_{i}^{T}\left(X^{T} X\right)^{-1}\right) \\ &=\operatorname{trace}\left(\left(\sum_{i=1}^{N} x_{i} x_{i}^{T}\right)\left(X^{T} X\right)^{-1}\right) \end{aligned}$
上式的第一步到第二步是因为最终结果是个标量，对标量取trace是其本身，第二步到第三步是因为 $t r a c e (A B) = t r a c e (B A)$ ，最终结果里面的第一项又可以被写为
$\sum_{i=1}^{N} x_{i} x_{i}^{T}=\left[\begin{array}{llll} {x_{1}} & {x_{2}} & {\cdots} & {x_{N}} \end{array}\right]\left[\begin{array}{c} {x_{1}^{T}} \\ {x_{2}^{T}} \\ {\vdots} \\ {x_{N}^{T}} \end{array}\right]=X^{T} X$
所以最终结果为
$\operatorname{df}(\hat{y})=\operatorname{trace}\left(\left(X^{T} X\right)\left(X^{T} X\right)^{-1}\right)=\operatorname{trace}\left(I_{k \times k}\right)=k$
这就是最小二乘的有效自由度，那么岭回归的有效自由度推导如下，首先
$\hat{y}=X \hat{\beta}^{\text {ridge }}=X\left(X^{T} X+\lambda I\right)^{-1} X^{T} \mathbf{y}$
那么协方差就等于
$\operatorname{cov}(\hat{y}, y)=X\left(X^{T} X+\lambda I\right)^{-1} X^{T} \operatorname{cov}(y, y)=\sigma^{2} X\left(X^{T} X+\lambda I\right)^{-1} X^{T}$
变成 $y_i$ 的形式就是
$\operatorname{cov}\left(\hat{y}_{i}, y_{i}\right)=\sigma^{2}\left(X^{T} e_{i}\right)^{T}\left(X^{T} X+\lambda I\right)^{-1}\left(X^{T} e_{i}\right)=\sigma^{2} x_{i}^{T}\left(X^{T} X+\lambda I\right)^{-1} x_{i}$
代入式 $(3.60)$ 可得
$\begin{aligned} \operatorname{df}(\hat{y}) &=\sum_{i=1}^{N} \operatorname{trace}\left(x_{i} x_{i}^{T}\left(X^{T} X+\lambda I\right)^{-1}\right) \\ &=\operatorname{trace}\left(X^{T} X\left(X^{T} X+\lambda I\right)^{-1}\right) \\ &=\operatorname{trace}\left(X\left(X^{T} X+\lambda I\right)^{-1} X^{T}\right) \end{aligned}$

Hoerl, A. E. and Kennard, R. (1970). Ridge regression: biased estimation for nonorthogonal problems, Technometrics 12: 55–67. ↩︎
Chen, S. S., Donoho, D. and Saunders, M. (1998). Atomic decomposition by basis pursuit, SIAM Journal on Scientific Computing 20(1): 33–61. ↩︎
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net, Journal of the Royal Statistical Society Series B. 67(2): 301–320. ↩︎
Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R. (2004). Least angle regression (with discussion), Annals of Statistics 32(2): 407–499. ↩︎
Osborne, M., Presnell, B. and Turlach, B. (2000a). A new approach to variable selection in least squares problems, IMA Journal of Numerical Analysis 20: 389–404. ↩︎
Zou, H., Hastie, T. and Tibshirani, R. (2007). On the degrees of freedom of the lasso, Annals of Statistics 35(5): 2173–2192. ↩︎

你可能感兴趣的:(ESL阅读笔记)

【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
2025年6月文章一览 python
2025年6月编程人总共更新了3篇文章：1.2025年5月文章一览2.《算法导论(第4版)》阅读笔记：p175-p1813.《BuildingRESTAPIswithFlask》读后感本月在读3本，阅读完一本——《BuildingRESTAPIswithFlask》。读完《BuildingRESTAPIswithFlask》，有两点感受最深：一、学有所用是效果最好的。其实在2019年就接触了Mar
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-split_dota.py 红色的山茶花 YOLO 笔记深度学习
split_dota.pyultralytics\data\split_dota.py目录split_dota.py1.所需的库和模块2.defbbox_iof(polygon1:np.ndarray,bbox2:np.ndarray,eps:float=1e-6)->np.ndarray:3.defload_yolo_dota(data_root:str,split:str="train")->
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-augment.py
augment.pyultralytics\data\augment.py目录augment.py1.所需的库和模块2.classBaseTransform:3.classCompose:4.classBaseMixTransform:5.classCutMix(BaseMixTransform):6.classCopyPaste(BaseMixTransform):7.defv8_transfo
UE4 官方文档阅读笔记——材质篇毛甘木 UE4 材质修改 android java
UE4官方文档阅读笔记——材质篇UE4免费材质：QuixelBridge网站材质基本概念材质编辑器参考1.MaterialExpression向材质节点添加描述2.快捷键C添加注释3.修改注释颜色4.LivePreview实时预览5.LiveNode实时节点6.LiveUpdate实时更新7.AddRerouteNode添加变更路线节点ContenxtMenuUtilityMaterialPale
UE4官方文档阅读笔记——蓝图可视化编程毛甘木 UE4 ue4
UE4蓝图官方文档阅读笔记蓝图中的结构体变量拆分结构体Break组成结构体Make修改结构体中个别成员SetMemberinStruct自定义结构体内容浏览器-创建高级资源-蓝图-结构体蓝图数组Add添加元素到末尾ClearContainsFilterArrayFindGetInsertLastLengthRemoveRemoveIndexResizeSetArrayElem<
优秀开源库muduo阅读笔记 VictorLeo 网路编程服务端编程 muduo
muduo阅读笔记目录设计经验和思想服务端编程设计std::bind和std::function(基于closure闭包的编程)参考资料muduo开源库的笔记，比较杂，没有详细整理，现在就这么杂乱放着，等真的需要再好好整理。设计经验和思想对象构造做到线程安全，唯一的要求就是不要暴露this指针.即不要在构造函数中注册任何回调；也不要在构造函数中把this传给跨线程的对象；即便在构造函数的最后一行也
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-metrics.py 红色的山茶花 YOLO 笔记深度学习
metrics.pyultralytics\utils\metrics.py目录metrics.py1.所需的库和模块2.defbbox_ioa(box1:np.ndarray,box2:np.ndarray,iou:bool=False,eps:float=1e-7)->np.ndarray:3.defbox_iou(box1:torch.Tensor,box2:torch.Tensor,eps
YOLOv12_ultralytics-8.3.145部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.definverse_sigmoid(x,eps=1e-5):4.defmulti_scale_deformable_attn_pytorch(value:torch.Tensor,value_spatial_shapes:t
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-loss.py 红色的山茶花 YOLO 笔记深度学习
loss.pyultralytics\utils\loss.py目录loss.py1.所需的库和模块2.classVarifocalLoss(nn.Module):3.classFocalLoss(nn.Module):4.classDFLoss(nn.Module):5.classBboxLoss(nn.Module):6.classv8DetectionLoss:7.classE2EDetec
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.defbias_init_with_prob(prior_prob=0.01):4.deflinear_init(module):5.definverse_sigmoid(x,eps=1e-5):6.defmulti_scal
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-predict.py 红色的山茶花 YOLO 笔记深度学习
predict.pyultralytics\models\yolo\detect\predict.py目录predict.py1.所需的库和模块2.classDetectionPredictor(BasePredictor):1.所需的库和模块#UltralyticsAGPL-3.0License-https://ultralytics.com/licensefromultralytics.eng
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-torch_utils.py 红色的山茶花 YOLO 笔记深度学习
torch_utils.pyultralytics\utils\torch_utils.py目录torch_utils.py1.所需的库和模块2.defsmart_inference_mode():3.defautocast(enabled:bool,device:str="cuda"):4.deftime_sync():5.deffuse_conv_and_bn(conv,bn):6.deffu
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-autobackend.py 红色的山茶花 YOLO 笔记深度学习
autobackend.pyultralytics\nn\autobackend.py目录autobackend.py1.所需的库和模块2.defcheck_class_names(names:Union[List,Dict])->Dict[int,str]:3.defdefault_class_names(data:Optional[Union[str,Path]]=None)->Dict[in
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-block.py 红色的山茶花 YOLO 笔记深度学习
block.pyultralytics\nn\modules\block.py目录block.py1.所需的库和模块2.classDFL(nn.Module):3.classProto(nn.Module):4.classHGStem(nn.Module):5.classHGBlock(nn.Module):6.classSPP(nn.Module):7.classSPPF(nn.Module):
电子价签ESL蓝牙芯片OM6626/OM6628支持超低功耗应用性能对标NORDIC Kandiy18025398187 物联网阿里云代理模式 risc-v 硬件架构射频工程 iot
**电子价签ESL蓝牙芯片OM6626/OM6628支持超低功耗应用性能对标NORDICOM6626是一款超低功耗的蓝牙soc**主要特性：支持BLE5.3支持SIGMesh支持2.4G长包主频64Mhz，80KBRAM主要应用在esl电子价签，IoT模组、CGM、高报告率HID设备PUM特点1.71~3.6v供电电压1秒间隔广播平均电流：9uA；1秒间隔连接平均电流：7uA峰值电流：TX@0dB
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
蔡高厅老师 - 高等数学-阅读笔记 - 01 - 前言、函数【视频第01、02、03、】 Franklin 数学线性代数
高等数学前言；196学时，每周6课主要内容：上册一元、多元函数数，微分学、积分学、矢量代数、空间解析几何无穷级数、微分方程，多元函数微分学和积分学目的：高等数学3基：1高等数学的基本知识2高度数学的基本理论3高等数学的基本计算方法提高数学素养培养：抽象思维、逻辑推理、辩证的思想方法、空间想象能力、分析问题、解决问题的能力为进一步学习打下必要的学习基础和初等数学不同，研究的不是常量而是变量，变量和变
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
Knowledge Graph Contrastive Learning for Recommendation（KGCL）阅读笔记 forever0827 知识图谱笔记人工智能推荐算法
现有知识图谱（KG）的稀疏性和噪声使得项目-实体依赖关系偏离了反映其真实特征，从而显着放大了噪声效应，阻碍了用户偏好的准确表示。为了填补这一研究空白，作者设计了一个通用的知识图对比学习框架（KGCL），该框架可以减轻知识图增强推荐系统的信息噪声。论文链接：https://doi.org/10.1145/3477495.3532009代码链接：https://github.com/yuh-yang/
《深入理解Apache Dubbo与实战》第三章的阅读笔记我在阳澄湖畔吃炸鸡后端 JAVA Dubbo java
文章目录前言一、注册中心概述1.简介2.工作流程二、Zookeeper注册1.原理2.发布/订阅三、Redis的注册四、缓存五、设计模式前言本文是《深入理解ApacheDubbo与实战》第三章的阅读笔记。第三章的主要内容是讲注册中心，书中主要围绕：1.注册中心的工作流程2.注册中心的数据结构3.订阅发布的实现4.缓存机制5.重试机制6.设计模式这几个部分讲解一、注册中心概述1.简介Dubbo通过注
《算法导论(第4版)》阅读笔记：p175-p181 算法
《算法导论(第4版)》学习第31天，p175-p181总结，总计7页。一、技术总结无。二、英语总结(生词：1)1.amortize(1)amortize:a-("to")+mortus("dead")vt.amortizeoriginallymeans"tokilloff",overtime,itevolvestomean"topayoffgraduallybyperiodicpaymentsof
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读笔记—— Multi-attentional Deepfake Detection jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录Multi-attentionalDeepfakeDetection背景创新贡献方法注意图正则化的区域独立性损失注意力引导的数据增强实验Multi-attentionalDeepfakeDetection来源：CVPR2021作者：HanqingZhao1WenboZhou1,†DongdongChen2TianyiWei1WeimingZhang1,†NenghaiYu1单位：Unive
[论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision Heartache Doctor 笔记论文阅读笔记
Abstract将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。IntroductionNLP领域下，使用大量数据pretrain>使用高质量标注数据集。→\rightarrow→CV是否也
GLIDE论文阅读笔记与DDPM（Diffusion model）的原理推导大写-凌祁论文阅读笔记人工智能深度学习 python 机器学习计算机视觉
Abstract扩散模型（Diffusionmodel）最近被证明可以生成高质量的合成图像，尤其是当它们与某种引导技术结合使用时，可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更倾向于使用无分类器引导方法，无论是在照片真实感还是与文本描述的匹配度方面，该方法通常都能生成具有高度
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING 寻丶幽风 Background 论文阅读笔记流匹配扩散模型人工智能
FlowMatching论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。Flowmatching采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且Flow是基于NormalizingFlow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概
idea两个好用的插件-Code Reading Note与RestfulTool 软件老王 intellij-idea java intellij idea
1、问题描述介绍两个idea插件，感觉很好用，记录下。2、问题描述解决2.1CodeReadingNote插件——代码阅读笔记这个插件的原始功能是：对指定代码记录阅读笔记，然后增加到指定代码点，纳尼？看个代码还要把读书笔记写到代码中啊？个人认为有点小鸡肋。。2.1.1需求点（1）idea快捷键有些记不住，比如：Ctrl+Alt+T，使用(if…else,try…catch,for,synchron
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing 寻丶幽风论文阅读笔记论文阅读笔记理解生成模型多模态人工智能
Step1X-Edit论文当前图像编辑数据集规模小，质量差，由此构建了如下数据构造管线。高质量三元组数据（源图像、编辑指令、目标图像）。主体添加与移除：使用Florence-2对专有数据集标注，然后使用SAM2进行分割，再使用ObjectRemovalAlpha进行修复。编辑指令结合Step-1o和GPT-4o生成，然后人工审查有效性。主体替换与背景更改：使用Florence-2对专有数据集标注，
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。