不牌不改

【机器学习】线性回归【下】正则化最小二乘估计

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

由于字数限制，分成两篇博客。
【机器学习】线性回归【上】朴素最小二乘估计
【机器学习】线性回归【下】正则化最小二乘估计

2.4. 正则化

正则化是指通过修改学习算法，使模型降低泛化误差而非训练误差。通俗地理解为，凡是能缓解过拟合的方法都称为正则化。

正则化有很多种，常见的有 L1 正则化、L2 正则化、Dropout 正则化等等。下面我们仅介绍 L1、L2 正则化。

式 $(4)$ 为朴素最小二乘估计对应的目标函数式 $(1)$ 的解析解。上面提到样本个数为 $n$ ，样本维度为 $p$ ，我们知道当 $n\gg p$ 时，训练出的模型一般会更优质；而如果样本数目不够多或者样本缺少普遍性，体现在线性代数中为过多样本存在线性相关，出现样本向量集合的极大线性无关组数目过少，甚至少于 $p$ 的情况，这将会带来一些问题。从计算上来讲，由于式 $(4)$ 中 $p\times p$ 的矩阵 $X^TX$ 不满秩，无法求逆，导致无法计算出解析解，从现象上来讲对应着过拟合问题，比如可以考虑在一个二维（样本维度）平面中确定过一个点（样本个数）的直线，显然存在无数条，不可能每一条直线都适应测试样本，所以训练出的某条直线大概率只能适应训练样本而无法适应测试样本，即出现过拟合现象。

处理过拟合问题的三种方法：① 增加数据量（数据增强等）②特征选择/特征提取（PCA等降维方法）③正则化

引入正则化项（regularizer）后的目标函数
$J(W)=L(W)+\alpha g(W) \tag{8}$
其中， $\alpha>0$ 。最小化目标函数 $(7)$ 对应的 $W$ 为目标模型参数，即
$\hat{W}={\rm arg}\min_W J(W)={\rm arg}\min_W L(W)+\alpha g(W) \tag{9}$
L1 正则化表示正则化项为模型参数的一范数，即 $g(W)=||W||_1$ ；L2 正则化表示正则化项为模型参数的二范数，即 $g(W)=||W||_2$ 。

L1 正则化回归被称为 Lasso 回归；L2 正则化回归被称为 Ridge 回归（岭回归）。

$g (\cdot)$ 被称为惩罚项（penalty term）或权重衰减（weight decay）。

2.4.1. L2 正则化

L2 正则化的目的是希望训练出较小的模型参数，以提高模型的泛化能力，防止样本的微小波动导致输出值的剧烈变化。

L2 正则化最小二乘估计目标函数的一般形式
$J(W)=\sum_{i=1}^n||W^Tx_i-y_i||_2^2+\alpha ||W||_2\tag{10}$
等价的矩阵形式为
$J(W)=(W^TX^T-Y^T)(XW-Y)+\alpha W^TW\tag{11}$
进而整理为
$J(W)=W^T(X^TX+\alpha I)W-2W^TX^TY\tag{12}$

解释一下从式 $(10)$ 转换到式 $(11)$ 。 $L (W)$ 部分的矩阵表示不再重复讲解，主要介绍一下为什么 $\alpha ||W||_2$ 和 $\alpha W^TW$ 等价。

根据后续从拉格朗日角度理解正则化的内容（建议先认为已知，按顺序阅读），我们可以知道约束条件等价于 $||W||_2\le C$ （ $C$ 为常数）， $||W||_2=\sqrt{W^TW}\le C\Rightarrow W^TW\le C^2$ ，由于 $C$ 是任意常数，那么约束条件 $||W||_2 \le C$ 与 $W^TW\le C^2$ 等价，通俗简单地理解为将 $W||_2$ 替换为 $W^TW$ 。

具体有关拉格朗日的等价变换可以自行学习。

目标参数为
$\hat W={\rm arg}\min_W J(W)\tag{13}$
L2 正则化对抽象通用的二次代价函数的影响

我们先讨论 L2 正则化对优化一个抽象通用的二次代价函数的影响。简化分析，令 $W^∗$ 为未正则化的目标函数取得最小训练误差时的权重向量，即 $W^∗ = {\rm arg} \min_W L(W)$ ，并在 $W^∗$ 的邻域对目标函数做二次近似（二阶泰勒展式）。如果目标函数确实是二次的（如以均方误差拟合线性回归模型的情况），则该近似是完美的。近似的 $\hat L(W)$ 如下
$\hat L(W)=L(W^*)+\frac{1}{2}(W-W^*)H(W-W^*)\tag{14}$
其中 $H$ 是 $L$ 在 $W^∗$ 处计算的 Hessian 矩阵（关于 $W$ ）。因为 $W^∗$ 被定义为最优，即梯度消失为 $0$ ，所以该二次近似中没有一阶项。同样地，因为 $W^∗$ 是 $L$ 的一个最优点，我们可以得出 $H$ 是半正定的结论。

当 $\hat L$ 取得最小时，其梯度
$\nabla \hat L(W)=H(W-W^*)\tag{15}$
为 $0$ 。

为了研究权重衰减带来的影响，我们在式 $(15)$ 中添加权重衰减的梯度。根据式 $(15)$ ，我们可以得到最小化正则化后的目标函数
$\hat J(W)=\hat L(W)+\alpha W^TW$
的梯度为
$\nabla \hat J(W)=\alpha W+H(W-W^*)$
我们使用变量 $\tilde W$ 表示引入正则化项后的最优点。令梯度为 $0$ ，得
$\tilde W=( H+\alpha I)^{-1}HW^*\tag{16}$

注意区分 $\tilde W$ 和 $W^*$ ，二者分别表示引入正则化项后目标函数的最优解和未引入的最优解。

式 $(16)$ 确定了二者的直接关系，让我们能够直接对比引入正则化项后相较于引入前发生了怎样的变化。

当 $α$ 趋向于 $0$ 时，正则化的解 $\tilde W$ 会趋向 $W^∗$ 。

接下来探讨 $\alpha$ 增加带来的影响。因为 $H$ 是实对称的，所以我们可以将其分解为一个对角矩阵 $\Lambda$ 和一组特征向量的标准正交基 $Q$ ，并且有 $Q\Lambda Q^T$ 。将其应用于式 $(16)$ ，可得：
$KaTeX parse error: Undefined control sequence: \notag at position 74: …ambda Q^TW^* \\\̲n̲o̲t̲a̲g̲ ̲&=[Q(\Lambda +\…$
我们可以看到权重衰减的效果是沿着由 $H$ 的特征向量所定义的轴缩放 $W^∗$ 。具体来说，我们会根据 $\frac{λ_i}{λ_i+α}$ 因子缩放与 $H$ 第 $i$ 个特征向量对齐的 $W^∗$ 的分量，这样就得到了 $\tilde W$ 和 $W^*$ 直接关系
$\tilde w_i=\frac{\lambda_i}{\lambda_i+\alpha} w_i^*\tag{18}$
沿着 $H$ 特征值较大的方向（如 $λ_i\gg α$ ）正则化的影响比较小（ $W^*$ 分量的缩放程度比较小），而沿特征值较小的方向（如 $λ_i\ll α$ ）正则化影响比较大（ $W^*$ 分量的缩放程度比较大，甚至收缩到几乎为 $0$ ）。

$\tilde W=Q(\Lambda +\alpha I)^{-1} \Lambda Q^T W^*$ 相当于先将 $W^*$ 转换为在以长度为特征值的特征向量 $\Lambda Q^T$ 为基向量的坐标系中的表示，但是再转化回到原坐标系时，特征值从 $\Lambda$ 变为了 $\Lambda+\alpha I$ 。直观上来说，原坐标系中的基向量变长了，那么用变长后的基向量表示一个绝对长度的向量显然每一维度的坐标值会变小，每一维的缩放因子即为 $\frac{λ_i}{λ_i+α}$ 。

实在不理解的建议补习一下线性代数的几何意义，大部分高校应该是不讲几何意义的。

图 3 L2 正则化对最佳 W 的影响例图

图 $3$ 中实线椭圆表示没有正则化目标的等值线，虚线圆圈表示 L2 正则化项的等值线，这两个竞争目标在 $\tilde W$ 点达到平衡。可以看出，引入正则化项使得最优解从 $W^*$ 位置变到了 $\tilde W$ 位置，第一维分量（ $w_1$ ）和第二维分量（ $w_2$ ）均减小。更细致地看，当从 $W^*$ 分别沿竖直和水平方向移动相同距离时，水平方向的移动导致目标函数的变化比竖直方向的移动导致目标函数的变化小，说明第一维分量（ $w_1$ ）的重要程度不及第二维分量（ $w_2$ ）。在线性回归时，我们不希望一些相似样本因为在不重要分量上的不同而出现较大的预测差别，因此需要降低不重要分量的权重，对应上图的第一维分量（ $w_1$ ）。虚线圆圈（正则化项）的出现确实使得两个分量均减小，且第一维分量由于不重要所以缩放程度更大。反映在 Hessian 矩阵中，第一维分量（ $w_1$ ）对应的 Hessian 矩阵特征值 $\lambda_1$ 要比第二维分量（ $w_2$ ）对应的 Hessian 矩阵特征值 $\lambda_2$ 小，所以 $\alpha$ 的作用越明显，缩放程度越大。

总体的感受就是，只有在显著减小目标函数方向上的参数会保留得相对完好。在无助于目标函数减小的方向（对应 Hessian 矩阵较小的特征值）上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。

L2 正则化对最小二乘估计目标函数的影响

式 $(2)$ 加上 L2 正则化项后，得到 L2 正则化最小二乘估计目标函数的矩阵表示
$KaTeX parse error: Undefined control sequence: \notag at position 69: …+\alpha W^TW \\\̲n̲o̲t̲a̲g̲ ̲&=W^T(X^TX+\alp…$

转换为矩阵形式的过程类比式 $(2)$ 。

对 $J (W)$ 求导，并令导数为零
$\frac{\partial J(W)}{\partial W}=2(X^TX+\alpha I)W-2X^TY=0$
令导数为零，可得解析解
$W=(X^TX+\alpha I)^{-1}X^TY\tag{20}$
其中，矩阵 $X^TX$ 与协方差矩阵 $\frac{1}{m}X^TX$ 成正比，且均为半正定矩阵，因为 $\alpha>0$ ，所以 $X^TX+\alpha I$ 必然正定。从计算角度来看可逆；从观察到的现象上来讲缓解了过拟合。矩阵 $X^TX$ 的对角项对应每个输入特征的方差。我们可以看到，L2 正则化能让学习算法 ‘‘感知’’ 到具有较高方差的输入 $x$ ，因此与输出目标的协方差较小（相对增加方差）的特征的权重将会收缩。

拉格朗日乘数法视角下的 L2 正则化

这部分不会深入到拉格朗日乘数法的相关知识中进行讲解。

本质上 L2 正则化项是对 $W$ 的一个约束，希望模型参数 $W$ 小一点，对应的约束条件（可行域）为 $g(W)=||W||_2\le C$ （ $C$ 为常数）。写成拉格朗日函数为
$KaTeX parse error: Undefined control sequence: \notag at position 61: …a(||W||_2-C) \\\̲n̲o̲t̲a̲g̲ ̲&=L(W)+\lambda …$
式 $(21)$ 可以写成更简单的等价形式
$J(W,\lambda)=L(W)+\lambda ||W||_2\tag{22}$

之所以说 $J^{'} (W)$ 与 $J (W)$ 等价，是因为最小化两个函数得到的最优解 $\tilde W$ 相同。两个函数对 $W$ 计算偏导可以得到相同的导函数，故令导函数为零可得相同的解。

式 $(22)$ 中的 $\lambda$ 为超参数。训练模型时人为给定 $\lambda$ ，令目标函数关于 $W$ 的偏导数为零，找到最优解 $\tilde W$ ，在 $\tilde W$ 处满足 $\nabla L$ 和 $\nabla g$ 共线，且模长 $|\nabla L|=-\lambda |\nabla g|$ 。

图 $4$ 中绿色虚线圈可以理解为 $f (W) = g (W) - C$ 的等高线，红色点表示 $\nabla L$ 与 $\nabla g$ 方向相同的位置，绿色箭头表示红点处 $f (W)$ 的梯度（大小与方向），蓝色箭头表示未加正则化项的目标函数 $L (W)$ 的梯度（大小和方向）。当给定超参数 $\lambda$ 后，训练模型就是在找满足 $\frac{|\nabla L|}{|\nabla f|}=-\lambda$ （亦 $\frac{|\nabla L|}{|\nabla g|}=-\lambda$ ）的红色点。不同的 $\lambda$ 对应不同的红点集合，相当于间接地限制了可行域的大小，因此调整 $\lambda$ 也就是在调整可行域大小，与式 $(21)$ 中调整 $C$ 的作用类似。

图 4 拉格朗日乘数法视角下的 L2 正则化

同时可见，式 $(22)$ 与式 $(10)$ 完全一致的。这样从拉格朗日的角度很好地解释了 L2 正则化。

sklearn 中关于 L2 正则化的参数 $C$ 并非式 $(21)$ 中的参数 $C$ ，而是在作用上等价于式 $(22)$ 中 $\lambda$ 的倒数。

神经网络视角下的 L2 正则化

在神经网络中，只需要对权重 $W$ 正则化，不需要对偏置 $b$ 正则化。因为 $L 2$ 正则化的本质是希望通过减小权重的方式，让神经网络拟合出来的曲线更加平滑。只有权重 $W$ 会影响曲线平滑（弯曲）程度，偏置 $b$ 只会影响曲线的位置，因此在神经网络中仅对权重 $W$ 进行正则化。

对于同一个结构的模型，选取不同的权重和偏置，可能对任意同一个样本计算出相同的目标函数值。尽管结算结果相同，但是大权重会对噪声起到过度放大的作用，同类样本的差距也会被放大，导致模型效果不理想，出现过拟合问题。

说明一下“对于同一个结构的模型，选取不同的权重和偏置，可能对任意同一个样本计算出相同的目标函数值”。

我们以简单的多层感知机为例，假设输入样本向量为 $x_{p\times 1}$ ，第 $i$ 个层的权重（含偏置）矩阵为 $W_i$ ，为了方便处理偏置项，我们认为 $x_{p\times 1}$ 的第 $p$ 维为 $1$ ， $W_i$ 的最后一行表示偏置项。采用最简单的 ReLu 函数激活，经过第一层神经元的输出为 $W^T_1x$ ，经过前两层的输出为 $W^T_2(W^T_1x)$ ，那么经过 $k$ 层神经元后的输出为 $W^T_k(\dots W^T_wW^T_1x)$ 。

现在让前 $k - 1$ 层神经元的权重和偏置均变为 $2$ 倍，第 $k$ 层神经元的权重和偏置变为 $\frac{1}{2^{k-1}}$ 倍，那么经过 $k$ 层神经元后的输出为 $\frac{1}{2^{k-1}}W^T_k·2^{k-1}(\dots W^T_wW^T_1x)$ ，与权重和偏置变化前的输出值相同。这说明对于相同的模型结构，不同的权重和偏置是可能计算出相同的目标函数值的。

神经网络拟合出的函数 $f (x)$ 由泰勒展开得到， $f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{1}{2}f''(x_0)(x-x_0)^2+\dots+\frac{1}{n!}f^{(n)}(x_0)(x-x_0)^n$ 。一般地，函数的次数越高，对应图像上能够出现更多的弯曲。直观上来说，我们通过为高次项设置小的系数以减少高次项对函数的贡献就可以实现平滑函数曲线。图 $5$ 表示对两类样本进行分类，紫色曲线表示欠拟合，红色曲线表示过拟合，蓝色曲线为最佳拟合。对于紫色曲线来说，其对应的函数仅包含一次项和常数项，所以无法出现弯曲，导致欠拟合；对于红色曲线来说，由于高次项的出现，使得函数的某个区域内出现大幅度波动，导致过拟合。定性分析（直观感受上）， $f (x)$ 在 $x=x_0$ 处的各阶导数值 $f^{(i)}(x_0)$ 与 $W$ 有关，尽管不知道二者的具体函数关系，但是可以感受到，当 $W$ 趋于 $0$ 时， $f^{(i)}(x_0)$ 也趋于 $0$ 。另外， $f^{(i)}(x_0)$ 趋于 $0$ 只会惩罚次数大于 $1$ 的高次项，这是因为一次项的系数变化并不改变曲线的弯曲程度，只有大于 $1$ 次的高次项的系数发生改变时曲线的弯曲程度才会改变，这与我们不对偏置 $b$ 正则化的原因类似。

图 5 神经网络对于二分类问题拟合出的不同分界线

“权重衰退”这个名字也是在神经网络中体现的。在训练神经网络时，我们一般采用梯度下降等迭代方法，而非像机器学习那样更多采用直接计算解析解的方法。想要了解“权重衰退”名称的由来，就需要对比在采用 GD 算法更新参数的前提下，向目标函数中引入正则化项和未引入时模型权重的更新公式。

我们首先考虑未正则化项的模型权重更新
$W=W-\lambda \nabla L(W) \tag{23}$
其中， $\lambda$ 为学习率（或步长）。正则化的梯度下降法中，先计算梯度
$\nabla J(W)=\nabla L(W)+\alpha W$
权重更新为
$KaTeX parse error: Undefined control sequence: \notag at position 58: … + \alpha W) \\\̲n̲o̲t̲a̲g̲ ̲&= (1-\lambda\a…$
对比式 $(23)$ 和式 $(24)$ 可以看出，式 $(23)$ 每次用 $W$ 进行更新，而式 $(24)$ 每次不用完整的 $W$ 更新，而是使用 $(1-\lambda \alpha)$ 倍的 $W$ 更新。因为 $\lambda$ 和 $\alpha$ 都是正数，所以 $1-\lambda\alpha\lt 1$ ，相较于式 $(23)$ ，加入正则化项后的每次更新权重都要减少更多，这就是权重衰减名称的由来。当然考虑到 $\lambda \nabla L(W)$ 项，更新后的 $W$ 值可能增大也可能减小。

概率视角下的 L2 正则化

下面从贝叶斯派学者的角度（MAP）来重新审视 L2 正则化的最小二乘估计。

噪声假设服从正态分布 $\epsilon\sim (0,\sigma^2)$ ，标签 $Y$ 可以表示为噪声形式 $Y=\hat Y + \epsilon= W^TX+\epsilon$ ，因此 $Y\mid X,W\sim N(W^TX, \sigma^2)$ ，这部分与频率派学者的假设一样。贝叶斯派学者观点与其的不同之处在于贝，叶斯派学者认为模型参数也是随机变量，而不是未知常量，所以模型参数同样服从一定的分布。假设模型参数 $W$ 的每一个维度均服从正态分布 $(0,\sigma_0^2)$ ，即 $w_i\sim(0,\sigma_0^2)$ （ $i=1,2,\dots,p$ ），即先验分布。

根据这两个分布，我们可以写出具体的概率分布函数
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P(Y\mid W) &= …$

从意义上来讲， $Y\mid W$ 和 $Y\mid X,W$ 是等价的。可以从多种角度理解，这里不再解释。

最大后验概率估计（MAP）的定义目标函数
$KaTeX parse error: Undefined control sequence: \notag at position 42: …g P(W\mid Y) \\\̲n̲o̲t̲a̲g̲ ̲&=\log \frac{P(…$
最大化目标函数 $(27)$ 对应的 $W$ 为目标模型参数，即
$KaTeX parse error: Undefined control sequence: \notag at position 50: … \max_W L(W) \\\̲n̲o̲t̲a̲g̲ ̲&={\rm arg} \ma…$
一般认为式 $(28)$ 为 MAP 的目标参数计算公式。

将式 $(25)$ 和式 $(26)$ 代入到式 $(28)$ 中得
$KaTeX parse error: Undefined control sequence: \notag at position 65: …Y\mid W)P(W) \\\̲n̲o̲t̲a̲g̲ ̲&={\rm arg} \ma…$
式 $(29)$ 化为矩阵形式
$\hat W={\rm arg} \min\limits_W (W^TX^T-Y^T)(XW-Y) +\frac{2\sigma^2}{2\sigma_0^2}W^TW \tag{30}$
当式 $(13)$ 中的 $\alpha=\frac{2\sigma^2}{2\sigma_0^2}$ 时，式 $(30)$ 与式 $(13)$ 完全一致。可见，以贝叶斯派学者的角度理解 L2 正则化的 LSE 可以推导出与其一般定义下相同的目标函数和目标参数。因此，我们可以认为 L2 正则化的最小二乘估计与噪声和先验均为高斯分布的最大后验概率估计是等价的。

上面提到了朴素最小二乘估计等价于噪声为高斯分布的最大似然估计，这里讲到 L2 正则化的最小二乘估计等价于噪声和先验均为高斯分布的最大后验概率估计。

整体上来理解概率视角下的正则化项。观察 MLE 和 MAP 的目标参数公式 $\hat W={\rm arg} \max_W \log P(Y\mid X,W)$ 和 $\hat W={\rm arg} \max_W \log P(Y\mid X,W)+\log P(W)$ 可以发现，二者仅仅相差了一个 $\log P(W)$ 项，也就是 MAP 比 MLE 多考虑了先验，当数据充足时考虑先验能够达到更好的效果。再对比 MLE 和 MAP 的目标函数，MAP 比 MLE 多了正则化项，目标参数公式是由目标函数得到的，因此可以认为，MAP 中正则化项起到了先验的作用。

2.4.2. L1 正则化

对于 L1 正则化，我们着重探讨 L1 正则化项为朴素最小二乘估计带来了哪些变化。

后面会对比一下 L1 正则化和 L2 正则化的区别和适用场景。

L1 正则化的目的是希望训练出稀疏的模型参数，以提高模型的特征选择的能力，进而缓解过拟合问题。

L1 正则化的最小二乘法对应的目标函数为
$KaTeX parse error: Undefined control sequence: \notag at position 46: …lpha ||W||_1 \\\̲n̲o̲t̲a̲g̲ ̲&=L(W)+\alpha \…$
对应的梯度（实际上是次梯度）为
$\nabla J(W) = \nabla L(W)+\alpha {\rm sign}(W)\tag{32}$

其中， ${\rm sign}(W)$ 只是简单地取 $W$ 各个元素的正负号。

由于绝对值函数不是处处可导，所以 L1 正则化不像 L2 正则化一样在解析解，故一般采用迭代法或近似求解。

如果紧扣梯度下降算法中“梯度”概念的话，L1 正则化，甚至是 ReLu 激活函数、max 函数等等一些列非处处可导的函数均无法使用梯度下降算法，因为这些函数在某些点是没有梯度的，也就无法保证一定可以计算出梯度，并用梯度更新模型参数。但是在实际的神经网络中，在这些无梯度的点会默认使用其“次梯度”代替梯度进行反向传播，这一部分也是被各种库完美地隐藏到我们看不见的底层了，所以认为 L1 正则化无法使用梯度下降进行更新有道理，认为可以更新也有道理。更严谨地将，L1 正则化确实无法直接使用梯度下降算法。但是有学者提出近端梯度下降（Proximal Gradient Desent，PGD）来实现 L1 正则化的梯度更新算法，具体可以参考”周志华的《机器学习》第十一章第四节嵌入式选择与 L1 正则化“。

当然，L1 正则化可以使用不用梯度更新的迭代算法，比如坐标下降法等。另外，还可以通过泰勒展式对 L1 正则化目标函数进行二次近似，再进一步处理。

我们从近似求解的角度来理解 L1 正则化。类似于 L2 正则化中对 $J (W)$ 在未引入正则化项时的最优解 $W^*$ 处进行泰勒展开，对式 $(31)$ 进行二阶展开，结合式 $(14)$ ，我们可以更容易地写出 L1 正则化目标函数
$\hat J(W)=L(W^*)+\frac{1}{2}(W-W^*)H(W-W^*)+\alpha ||W||_1 \tag{33}$
其中， $W^*$ 和 $\tilde W$ 仍然分别表示未正则化和引入正则化后目标函数的最优解。我们的目的是找到式 $(33)$ 的最值，进而确定 $\tilde W$ 与 $W^*$ 的关系，从而理解 L1 正则化的作用。

由于 L1 正则化项在完全一般化的 Hessian 的情况下，无法得到直接清晰的代数表达式，因此我们将进一步简化假设 Hessian 是对角的，即 ${\rm diag}(H_{1,1}, \dots , H_{n,n})$ ，其中每个 $H_{i,i} > 0$ 。如果线性回归问题中的数据已被预处理（如可以使用 PCA），去除了输入特征之间的相关性，那么这一假设成立。

那么式 $(33)$ 可以化为
$\hat J(W)=L(W^*)+\sum_{i=1}^p\left(\frac{1}{2}H_{i,i}(w_i-w^*_i)^2+\alpha |w_i|\right) \tag{34}$
现计算式 $(34)$ 的最值。创建新函数
$f(w_i)=\frac{1}{2} H_{i,i} (w_i-w_i^*)+\alpha |w_i| \tag{35}$
那么式 $(34)$ 可以简化表示为
$\hat J(W)=L(W^*)+\sum_{i=1}^p f(w_i)\tag{36}$
令 $\hat J$ 关于 $W$ 的梯度等于零。 $L(W^*)$ 与 $W$ 无关，故 $\nabla L(W^*)=0$ ，根据式 $(35)$ 可知 $f(w_i)\ge 0$ ，由于 $\nabla \hat J(W)=0$ ，所以 $\nabla f(w_i)=0$ （ $u=1,2,\dots,p$ ）。令 $f(w_i)$ 梯度为零，得
$\tilde w_i=w_i^*-\frac{\alpha {\rm sign}(\tilde w_i)}{H_{i,i}} \tag{37}$

这里在对绝对值函数在 $0$ 处的梯度取次梯度，故计算出的梯度表达式为 ${\rm sign}(·)$ 。

直接表示为 $\tilde w_i$ 关于 $w_i^*$ 的分段函数为
$\tilde w_i={\rm sign}(w^*_i)\max\{|w_i^*|-\frac{\alpha}{H_{i,i}}, 0\} \tag{38}$
式 $(38)$ 详细表示为
$\tilde w_i=\left\{\begin{matrix} w^*_i+\frac{\alpha}{H_{i,i}} & w^*_i\lt -\frac{\alpha}{H_{i,i}} \\ 0 & -\frac{\alpha}{H_{i,i}} \le w^*_i\le \frac{\alpha}{H_{i,i}} \\ w^*_i-\frac{\alpha}{H_{i,i}} & w^*_i\gt\frac{\alpha}{H_{i,i}} \\ \end{matrix}\right.\tag{39}$
对每个 $i$ ，考虑 $w^∗_i > 0$ 的情形，会有两种可能结果：

① $|w_i^*|\le \frac{\alpha}{H_{i,i}}$ 的情况。正则化后目标中的 $w_i$ 最优值是 $w_i = 0$ 。这是因为在方向 $i$ 上 $L (W)$ 对 $\hat J(W)$ 的贡献被抵消，L1 正则化项将 $w_i$ 推至 $0$ 。

② $|w_i^*|\gt \frac{\alpha}{H_{i,i}}$ 的情况。在这种情况下，正则化不会将 $w_i$ 的最优值推至 $0$ ，而仅仅在那个方向上移动 $\frac{\alpha}{H_{i,i}}$ 的距离。

从式 $(37)$ 到式 $(39)$ 的推导过程，供参考。下面过程参考了各方面的资料，但是还是感觉不严谨，也可能是我数学太差。

观察到式 $(37)$ 中存在符号函数，因此不可避免的要对 $\tilde w_i$ 的符号进行讨论：

当 $\tilde w_i >0$ 时
$\tilde w_i=w_i^*-\frac{\alpha}{H_{i,i}}>0\\ w_i^*\gt \frac{\alpha}{H_{i,i}}$
当 $\tilde w_i<0$ 时
$\tilde w_i=w_i^*+\frac{\alpha}{H_{i,i}}<0\\ w_i^*\lt -\frac{\alpha}{H_{i,i}}$
由于我们希望得到的是 $\tilde w_i$ 的值，因此我们将 $w_i^*$ 看作自变量， $\tilde w_i$ 看作因变量。得到不完整的分段函数
$\tilde w_i=\left\{\begin{matrix} w^*_i+\frac{\alpha}{H_{i,i}} & w^*_i\lt -\frac{\alpha}{H_{i,i}} \\ 0 & w^*_i=0 \\ w^*_i-\frac{\alpha}{H_{i,i}} & w^*_i\gt\frac{\alpha}{H_{i,i}} \\ \end{matrix}\right.$
但是没有考虑到区间 $-\frac{\alpha}{H_{i,i}} \le w^*_i\le \frac{\alpha}{H_{i,i}}$ ，在这个区间上使用刚才的讨论方法是无解的。我们重新审视 $f(w_i)$ ，我们希望获得的 $w_i$ 其实是 $f(w_i)$ 的极小值点，所以我们可以通过讨论 $\nabla f(w_i)$ 的符号来寻找极小值点。

当 $w_i>0$ 时，由于 $w_i^*\le\frac{\alpha}{H_{i,i}}$ ，所以 $\alpha-H_{i,i}w_i^*\ge0$ ，又有 $H_{i,i}w_i\gt 0$ ，故
$KaTeX parse error: Undefined control sequence: \notag at position 61: …_i^*)+\alpha \\\̲n̲o̲t̲a̲g̲ ̲&=H_{i,i}w_i - …$
当 $w_i<0$ 时，由于 $w_i^*\ge-\frac{\alpha}{H_{i,i}}$ ，所以 $\alpha+H_{i,i}w_i^*\ge0$ ，又有 $H_{i,i}w_i\lt 0$ ，故
$KaTeX parse error: Undefined control sequence: \notag at position 61: …_i^*)+\alpha \\\̲n̲o̲t̲a̲g̲ ̲&=H_{i,i}w_i - …$
通过上面的推导我们可以知道 $w_i=0$ 是 $f(w_i)$ 的极小值，所以完整的分段函数为式 $(39)$ 所示，进一步简化得到式 $(38)$ 。

相比 L2 正则化，L1 正则化会产生更稀疏（sparse）的解。此处稀疏性指的是最优值中的一些参数为 $0$ 。和 L2正则化相比，L1 正则化的稀疏性具有本质的不同。式 $(17)$ 给出了 L2 正则化的解 $\tilde W$ 。如果我们使用 Hessian 矩阵 $H$ 为对角正定矩阵的假设（与 L1 正则化分析时一样），重新考虑这个等式，我们发现 $\tilde w_i=\frac{H_{i,i}}{H_{i,i}+\alpha}w_i^*$ 。如果 $w^∗_i$ 不是零，那么 $\tilde w_i$ 也会保持非零。这表明 L2 正则化不会使参数变得稀疏，而 L1 正则化有可能通过足够大的 $α$ 实现稀疏。

常用图 $6$ 直观上来对比理解 L1 正则化和 L2 正则化。黑色实线内为可行域，彩色椭圆实线为未正则化目标函数等值线（未画出继续外延的等值线）。L1 正则化倾向于将权重的某些维度缩放至 $0$ ，而 L2 正则化更倾向于将权重缩小，而非缩放至 $0$ ，且初始非零的维度一定不会被缩放到 $0$ 。

图 6 L1 正则化(左)和 L2 正则化(右)的图线理解例图

由 L1 正则化导出的稀疏性质已经被广泛地用于特征选择（feature selection）机制。特征选择从可用的特征子集选择出有意义的特征，化简机器学习问题。著名的 LASSO（Least Absolute Shrinkage and Selection Operator）模型将 L1 惩罚和线性模型结合，并使用最小二乘代价函数。L1 惩罚使部分子集的权重为零，表明相应的特征可以被安全地忽略。

在概率视角下的 L2 正则化可以认为是先验为高斯分布的 MAP，而 L1 正则化可认为是先验为拉普拉斯分布的 MAP。一般拉普拉斯分布为
${\rm Laplace}(x;\alpha, \beta)=\frac{1}{2\beta}e^{-\frac{|x-\alpha|}{\beta}}$
假设 $w_i\sim {\rm Laplace}(0,\frac{1}{\alpha})$ ，那么先验对目标函数的贡献为
$KaTeX parse error: Undefined control sequence: \notag at position 87: …c{1}{\alpha})\\\̲n̲o̲t̲a̲g̲ ̲&=\sum_{i=1}^p …$
因为是关于 $W$ 最大化进行学习，我们可以忽略 $\log α − \log 2$ 项，因为它们与 $W$ 无关。

2.4.3. 总结与对比

添加正则化相当于参数的解空间添加了约束，限制了模型的复杂度；正则化参数 $\alpha$ 越大，约束越严格，太大容易产生欠拟合。正则化参数 $\alpha$ 越小，约束宽松，太小起不到约束作用，容易产生过拟合。
L1 正则化的形式是添加参数的绝对值之和作为结构风险项，L2 正则化的形式添加参数的平方和作为结构风险项。
从稀疏性上来讲，L1 正则化鼓励产生稀疏的权重，即使得一部分权重为零，用于特征选择；L2 正则化鼓励产生小而分散的权重，让模型做决策的时候考虑更多的特征，而不是仅仅依赖强依赖某几个特征，可以增强模型的泛化能力，防止过拟合。稀疏的解除了计算量上的好处之外，更重要的是更具有可解释性。如果不是为了进行特征选择，一般使用L2正则化模型效果更好。
从计算效率上来讲，L1 正则化没有一个解析解（analytical solution），但是 L2 正则化有，这使得 L2 正则化可以被高效的计算。可是，L1 正则化的解有稀疏的属性，它可以和稀疏算法一起用，这可以使计算更加高效。
从鲁棒性上来讲，概括起来就是 L1 正则化对异常点不太敏感，而 L2 正则化则会对异常点存在放大效果。最小绝对值偏差（LAD）的方法应用领域很广（L1 正则化），相比最小均方的方法（L2 正则化），它的鲁棒性更好，最小绝对偏差能对数据中的异常点有很好的抗干扰能力，异常点可以安全的和高效的忽略，这对研究帮助很大。如果异常值对研究很重要，最小均方误差则是更好的选择。对于 L2 正则化，由于是均方误差，如果误差 $> 1$ 的话，那么平方后，相比 L1 正则化而言，误差就会被放大很多。因此模型会对样例更敏感。如果样例是一个异常值，模型会调整最小化异常值的情况，以牺牲其它更一般样例为代价，因为相比单个异常样例，那些一般的样例会得到更小的损失误差。

另外，正则化除了 L1、L2 之外，还有神经网络中的 Dropout 正则化和 Batch Normalization 正则化，感兴趣的读者可以自行学习。

REF

[1] 《统计学习方法（第二版）》李航著

[2] Deep Learning 中文版

[3] 【机器学习】左逆、右逆、伪逆和广义逆的概念理解 - CSDN博客

[4] 机器学习-白板推导系列(三)-线性回归（Linear Regression）笔记 - 知乎

[5] 机器学习-白板推导系列-线性回归 - bilibili

[6] “L1和L2正则化”直观理解 - bilibili

[7] 线性回归详解 - CSDN博客

[8] 频率派与贝叶斯派_强强学习的博客 - CSDN博客

[9] 拉格朗日乘法和L1、L2正则化 - CSDN博客

[10] 正则化为什么可以防止过拟合 - CSDN博客

[11] Chap 7深度学习中的正则化——L1正则化公式推导 - CSDN博客

[12] 花书教我明白伤痛——L1正则 (miracledave.com)

[13] 正则化详解 - 早起的小虫子 - 博客园

你可能感兴趣的:(【机器学习】,人工智能,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo