Joyliness

ML Lecture 1: Regression - Case Study

Youtube
Bilibili
课件

回归的基本特征：输出一个数值

之前提到，机器学习要做的事情就是寻找函数，而回归要做的事情就是使我们所找的那个函数，其输出为数值型。或者说，如果我们找到的函数，它的输出是一个数值，这类型的任务就称为回归。举几个关于回归的例子：

股票市场的预测：找一个函数，其输入是过去股票市场的变动情况，输出是明天道琼工业指数的数值
驾驶无人车：找一个复杂函数，其输入是无人车上的各个感受器收集的数据，输出是方向盘角度
Amazon的商品推荐/Youtube的视频推荐：找一个函数，其输入是用户A、商品B的各种特性，输出是用户A购买商品B的可能性

ML Lecture 1: Regression - Case Study_第1张图片

回归的应用实例：预测pokemon进化后的CP值（即战斗力）

回归任务：寻找一个函数，其输入为 $x$ ，代表pokemon进化前的各种指标值（例如：进化前的CP值 $x_{cp}$ 、所属物种 $x_s$ 、进化前的HP值 $x_{hp}$ 、重量 $x_w$ 、高度 $x_h$ 等），输出是进化后的CP值，用 $y$ 来表示。

ML Lecture 1: Regression - Case Study_第2张图片

如何找出这个函数？之前提到，机器学习的三个步骤分别是：

第一步，寻找一个模型（即一组函数/一个函数集）。假设我们认为进化后的CP值 $y$ 与进化前的CP值 $x_{cp}$ 有密切的关系，那么就可以将模型表示为：
$y = b + w x_{cp}$
并称其为线性模型（Linear Model），这个模型随着参数 $b$ 和 $w$ 取不同值，可以形成多个函数 $f_1，f_2，f_3...$ 。显然，该模型（函数集）中的函数并非全部是合理的，我们需要从中挑取有利于预测的函数。进一步地，考虑其他的各种指标，可以将模型推广表示为：
$\sum w_i x_i$
其中， $x_i$ 泛指各种指标/特征（Feature），如 $x_{cp}，x_{hp}，x_w，x_h$ 等； $w_i$ 称为权重（Weight）； $b$ 称为偏置（Bias）。
第二步，判断函数的优劣。为此，我们必须收集一些训练资料，其中包括不同pokemon的指标值和标签： $（x_{cp}^i，\hat{y}^i)$ 。其中 $x_{cp}^i$ 代表第 $i$ 只pokemon进化前的CP值， $\hat{y}^i$ 代表第 $i$ 只pokemon进化后的真实CP值。下图是收集到 $10$ 只pokemon的训练资料（蓝色点）：

有了数据以后，就可以考察模型中的任意一个函数的优劣，这种“评价”是通过定义另一个函数，即损失函数（Loss Function）来完成的，通常用 $L$ 表示。注意，损失函数是关于 $f_1，f_2，f_3...$ 的函数，即函数的函数。它的输入是：模型中的任意一个函数 $f$ （由参数 $b$ 和 $w$ 决定）；输出是：关于这个函数优劣的评价。
统计学习常用的损失函数有：0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等，这里采用最常见的平方损失函数： $\sum_{n=1}^{10} ( \hat{y}^n - (b + wx_{cp}^n) )^2$
第三步，根据定义的损失函数 $L (f)$ ，按照 $L (f)$ 越小越好（即损失越少越好）的优化原则，从模型中挑选最佳函数 $f^*$ ，这个过程用公式表示为： $f^* = \mathop{argmin}_f L(f)$

寻找最佳函数 $f^*$ 其实就是寻找最佳参数 $w^*,b^*)$ 。一个有效方法是梯度下降法（Gradient Descent），只要保证损失函数 $L (f)$ 对参数 $w$ 和 $b$ 是可微分的，就可以用此方法求解最佳函数/参数： $f^* = f(w^*,b^*)$ 。

梯度下降法的原理

梯度下降法是一种一阶最优化算法。它是如何实现参数优化的呢？

【单个待优化参数】

考虑一个简单的情况：假设待求解的参数只有一个： $w$ 。则优化问题描述为：寻找 $w$ 的最优值，记为 $w^*$ ，使得损失函数 $L (w)$ 在 $w=w^*$ 处能够取得最小值 $L(w^*)$ 。

这里涉及到如何定义损失函数 $L (w)$ 。 $L (w)$ 可被定义为任何表达式，只要其满足：（1）对 $w$ 可导；（2）能够反映不同 $w$ 的优劣。定义好 $L (w)$ 后，我们就可以开始着手解决上述优化问题。最容易联想到的做法是暴力穷举所有 $w$ ，逐个代入 $L (w)$ ，比较之后得到最小的 $L (w)$ ，显然此举效率十分低下。

梯度下降法则可以克服上述缺陷：它不是穷举所有 $w$ ，而是按照如下步骤找到最优值：

首先随机选取一个初始值 $w^0$ ，计算 $L (w)$ 在 $w = w^0$ 处的导数： $\frac{dL}{dw} |_{w = w^0}$ ，得到的数值即损失函数的曲线在 $w^0$ 处的切线斜率
根据导数值 $\frac{dL}{dw} |_{w = w^0}$ 的正负，调整 $w$ 的值：
若 $\frac{dL}{dw} |_{w = w^0} < 0$ ，说明 $L (w)$ 的曲线目前正处于下降状态，为了抵达曲线的最低谷，应该朝着坐标轴正向行进， $w^0$ 应该增大
若 $\frac{dL}{dw} |_{w = w^0} > 0$ ，说明 $L (w)$ 的曲线目前正处于上升状态，为了抵达曲线的最低谷，应该朝着坐标轴反向行进， $w^0$ 应该减小

其中， $w^0$ 增大或减小的幅度取决于两件事：

① 当前导数值 $\frac{dL}{dw} |_{w = w^0}$ 的大小。它代表了损失函数的曲线当前正处于陡峭，还是平坦状态。显然，在曲线越陡峭的位置， $w^0$ 稍微增大或减小一点，就会使损失函数发生很大的变动

② 学习率（Learning Rate） $\eta$ 的大小。 $\eta$ 是自行设定的常数项，它决定了参数学习速度有多快。 $\eta$ 越大，则 $w^0$ 下一步要跨越的距离就越大（即参数更新的幅度大），意味着参数的学习效率比较高（但学习率设置过高也有问题）
由于导数值 $\frac{dL}{dw} |_{w = w^0}$ 的正负与我们希望 $w^0$ 移动的方向恰好相反，因此在更新 $w^0$ 时，应该加上负号，即 $w^1 = w^0-\eta \frac{dL}{dw} |_{w = w^0}$ 。按照这样的规则，从随机初始值 $w^0$ 开始不断更新： $w^0 \to w^1 \to w^2...$ 。

在针对线性回归的迭代过程中，参数的更新使得损失函数不断下降，最终逼近最优参数 $w^*$ ，最终损失函数取得最小值。梯度下降法之所以能用来解决线性回归任务的参数求解，是因为这里的损失函数 $L$ 是一个凸函数（Convex Function），其中不存在局部最小值的问题，最后只有一个全局最小值，所得即所求。

事实上，在其他参数求解问题中，会出现这种情况：虽然每一次参数更新，损失函数也在不断下降，但最后抵达的最小值，只是一个局部最小值（Local Minima），如下图的 $w^T$ 。在 $w^T$ 处，导数值 $\frac{dL}{dw} |_{w = w^T} =0$ ，参数会停止更新，损失函数看似到达最低点，其实在整个损失函数曲线中还存在着一个更低点，即全局最小值（Global Minima），而全局最小值才是我们的最终目标。

ML Lecture 1: Regression - Case Study_第9张图片

【两个待优化参数】

同理，当有两个参数 $(w, b)$ 时，首先定义一个关于 $(w, b)$ 的损失函数 $L (w, b)$ ，按照如下步骤找到最优值：

随机选取一组初始参数 $w^0,b^0)$ ，分别计算 $L (w, b)$ 在点 $w = w^0,b = b^0)$ 处，对 $w$ 和 $b$ 的偏导数： $\frac{\partial L}{\partial w} |_{w = w^0, b = b^0}$ $\frac{\partial L}{\partial b} |_{w = w^0, b = b^0}$
根据偏导数值和学习率，分别更新 $w$ 和 $b$ 的值：
$w^1 = w^0 - \eta \frac{\partial L}{\partial w} |_{w = w^0, b = b^0}$ ， $b^1 = b^0 -\eta \frac{\partial L}{\partial b} |_{w = w^0, b = b^0}$
$w^2 = w^1 - \eta \frac{\partial L}{\partial w} |_{w = w^1, b = b^1}$ ， $b^2 = b^1 -\eta \frac{\partial L}{\partial b} |_{w = w^1, b = b^1}$
…
直到最后偏导数等于 $0$ ，参数停止更新，此时的参数 $w^*,b^*)$ 能够使损失函数 $L (w, b)$ 最小

梯度下降中的梯度，就是指损失函数 $L$ 对各个参数求偏导后，所组成的向量：
$\nabla L = \left[ \begin{matrix} \frac{\partial L}{\partial w} \\ \frac{\partial L}{\partial b} \\ \end{matrix} \right]$

ML Lecture 1: Regression - Case Study_第10张图片

上面两个参数的迭代过程，可以通过下图直观表达：纵轴为参数 $w$ 的取值，横轴为参数 $b$ 的取值，则图中每一个点分别代表不同的 $(w, b)$ 。

图中不同的颜色区域分别对应着损失函数的大小。越往中间（紫色部分），损失函数的值越小。 $(w, b)$ 的每一次更新，就是沿着等高线的法线方向，往中间区域移动。

ML Lecture 1: Regression - Case Study_第11张图片

【多个待优化参数】

同样地，可以推广到用梯度下降法求解多个参数的情形。假设 $\theta$ 表示一个参数的集合，运用梯度下降法求解时，我们希望参数的每一次更新，都能使损失函数再降低一点： $\theta^0 \to \theta^1 \to \theta^2$ $L(\theta^0) > L(\theta^1) > L(\theta^2)$

ML Lecture 1: Regression - Case Study_第12张图片

但正如前面所说，梯度下降法也有缺陷：

在非线性模型中，选取不同的初始参数，最后可能抵达不同的局部最小值
在全局/局部最小值处，参数不再更新，是因为这里的导数值为 $0$ 。但其实在整个误差曲面（Error Surface）上，导数值为 $0$ 的点不止全局最小值和局部最小值，也有可能是鞍点（Saddle Point）。鞍点的位置如下图浅蓝色框所示，在该点处，导数值为 $0$ 却并非最小值点
实际更新参数时，我们往往不会真的等到导数值为 $0$ ，才停止参数的更新，而是会设定一个阈值（Threshold），当导数值小于此阈值时，我们就认为损失函数已经差不多接近最小值，参数也差不多接近最优，并停止迭代。
但这样的做法会带来问题：绿色框对应的点，其实离全局最小值、局部最小值、鞍点还很远，但由于处在非常平坦的地方，其计算出来的导数值特别小，每一次参数更新都只前进一点点，若此时误以为已经接近目标而停止迭代，那么求出来的参数并不能使损失函数最小

必须强调的是，在线性回归模型中，由于损失函数是一个凸函数，类似于碗的形状，不存在多个最小值，因此从任何一个初始位置出发，最后都会回到唯一的最低点，所以能够克服上述缺陷。

模型选择与评估

除了用梯度下降法求解最优参数，机器学习的重要环节还包括模型选择与评估。

选择模型时，我们通常是基于先验知识进行一些假设，根据假设设计模型结构，通过考察模型的拟合效果，判断所选模型是否合理。

根据上述思路：进行假设 $\to$ 设计模型 $\to$ 考察拟合效果，以 $10$ 只训练集pokemon、 $10$ 只测试集pokemon为例，拟合了如下七个模型（表格总结）：

进行假设	设计模型	考察拟合效果（平均误差）
$y$ 与 $x_{cp}$ 有关	$y = b + w x_{cp}$	训练集 $31.9$ ，测试集 $35.0$
$y$ 与 $x_{cp}$ 、 $x_{cp}^2$ 有关	$y = b + w_1 x_{cp} + w_2 (x_{cp})^2$	训练集 $15.4$ ，测试集 $18.4$
$y$ 与 $x_{cp}$ 、 $x_{cp}^2$ 、 $x_{cp}^3$ 有关	$y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3$	训练集 $15.3$ ，测试集 $18.1$
$y$ 与 $x_{cp}$ 、 $x_{cp}^2$ 、 $x_{cp}^3$ 、 $x_{cp}^4$ 有关	$y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3 + w_4 (x_{cp})^4$	训练集 $14.9$ ，测试集 $28.8$
$y$ 与 $x_{cp}$ 、 $x_{cp}^2$ 、 $x_{cp}^3$ 、 $x_{cp}^4$ 、 $x_{cp}^5$ 有关	$y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3 + w_4 (x_{cp})^4 + w_5 (x_{cp})^5$	训练集 $12.8$ ，测试集 $232.1$
$y$ 与 $x_{cp}$ 、 $x_s$ 有关	$\left \{ \begin{aligned} b_1+ w_1 \cdot x_{cp} &，x_s = Pidgey \\ b_2+ w_2 \cdot x_{cp} &，x_s = Weedle \\ b_3+ w_3 \cdot x_{cp} &，x_s = Caterpie \\ b_4+ w_4 \cdot x_{cp} &，x_s = Eevee \end{aligned} \right.$	训练集 $3.8$ ，测试集 $14.3$
$y$ 与 $x_s$ 、 $x_{cp}$ 、 $x_{cp}^2$ 、 $x_{hp}$ 、 $x_{hp}^2$ 、 $x_{h}$ 、 $x_{h}^2$ 、 $x_{w}$ 、 $x_{w}^2$ 有关	$y^{'} = \left \{ \begin{aligned} b_1+ w_1 \cdot x_{cp} + w_5 \cdot (x_{cp})^2 &，x_s = Pidgey \\ b_2+ w_2 \cdot x_{cp} + w_6 \cdot (x_{cp})^2 &，x_s = Weedle \\ b_3+ w_3 \cdot x_{cp} + w_7 \cdot (x_{cp})^2 &，x_s = Caterpie \\ b_4+ w_4 \cdot x_{cp} + w_8 \cdot (x_{cp})^2 &，x_s = Eevee \end{aligned} \right.$ $y^{'} + w_9 \cdot x_{hp} + w_{10} \cdot (x_{hp})^2 + w_{11} \cdot x_h + w_{12} \cdot (x_h)^2 + w_{13} \cdot x_w + w_{14} \cdot (x_w)^2$	训练集 $1.9$ ，测试集 $102.3$

模型拟合是一个由简到繁的试错过程。每一次新的拟合都是针对上一次拟合结果所进行的改进。在上述七个模型中：

首先考虑最简单的情况：假设进化后的CP值 $y$ 应该与进化前的CP值 $x_{cp}$ 值有密切联系，基于此拟合模型一： $y = b + w x_{cp}$
并定义损失函数为： $\sum_{n=1}^{10} ( \hat{y}^n - (b + wx_{cp}^n) )^2$
分别计算两个偏导数：

通过训练集，用梯度下降法求得模型一的最优参数为 $(w, b) = (2.7, - 188.4)$ 。
即求得最优函数： $y = -188.4 + 2.7 x_{cp}$ 。
这个函数在训练集上的平均误差为 $31.9$ 。平均误差（Average Error）的计算公式为： $\frac{1}{10} \sum_{n=1}^{10} |e^n|$

为了考察这个函数的泛化性能，还需要计算测试集上的平均误差：为 $35.0$ 。
进一步地，考虑进化后的CP值 $y$ 与进化前的CP值 $x_{cp}$ 、及其平方项 $x_{cp}^2$ 之间的关系，拟合模型二： $y = b + w_1 x_{cp} + w_2 (x_{cp})^2$ 得到训练集的平均误差为 $15.4$ ，测试集的平均误差为 $18.4$ 。
训练集、测试集的平均误差均比模型一小，预测效果明显提升。
以此类推，考虑 $x_{cp}$ 、平方项 $x_{cp}^2$ 、三次方项 $x_{cp}^3$ ，拟合模型三： $y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3$ 得到训练集的平均误差为 $15.3$ ，测试集的平均误差为 $18.1$ 。
训练集、测试集的平均误差相比模型二虽有下降，但降幅变小，预测性能只有小幅提升。
当拟合模型四： $y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3 + w_4 (x_{cp})^4$ 得到训练集的平均误差为 $14.9$ ，测试集的平均误差为 $28.8$ 。
相比模型三，此时测试集的平均误差反而上升，泛化性能下降，这是由于模型开始出现过拟合的问题。
当拟合模型五： $y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3 + w_4 (x_{cp})^4 + w_5 (x_{cp})^5$ 得到训练集的平均误差为 $12.8$ ，测试集的平均误差为 $232.1$ 。
相比模型四，测试集的平均误差急速上升，说明已经严重过拟合。

【注】：上面拟合的模型均为线性模型。原因是：虽然多项式回归拟合的是自变量 $x$ 与因变量 $y$ 之间的非线性关系，但作为统计估计问题时，模型是针对参数 $w$ 和 $b$ 而言的。在某种意义上， $y$ 与待估计参数之间是呈线性关系的。因此，尽管最后拟合出的是曲线，但仍然视为线性模型。换言之， $x_{cp}$ 、 $x_{cp}^2$ 、 $x_{cp}^3$ …等自变量可以视为一只pokemon样本的不同特征，用 $x_1$ 、 $x_2$ 、 $x_3$ …代替也无妨： $y = b + w_1 x_{cp} + w_2 (x_{cp})^2 + w_3 (x_{cp})^3 + w_4 (x_{cp})^4 + w_5 (x_{cp})^5$ $b + w_1 x_1 + w_2 x_2 + w_3 x_3 + w_4 x_4 + w_5 x_5$

显然，从模型一到模型五，随着模型结构越来越复杂，基于训练集所求出来的平均误差是逐渐降低的，而基于测试集的平均误差则是先减小后增大，从第四个模型开始出现过拟合问题。

为什么会出现过拟合？

考察上面五个模型（函数集）之间的关系，它们之间满足： $\in模型二 \in 模型三 \in 模型四 \in 模型五$ 令 $w_5 = 0$ ，就能使模型五等于模型四；
令 $w_4 = 0$ ，就能使模型四等于模型三；以此类推…

这说明模型五所涵盖的范围最广，它覆盖了前面所有模型的可能情况。与前面四个模型相比，模型五在训练集上的性能应该更好，在训练集上的平均误差应该更小，它的表现至少要优于前面四个模型。

ML Lecture 1: Regression - Case Study_第22张图片

但在测试集上，模型五的表现并非最优，反而是模型三的平均误差最小。从第四个模型开始，平均误差就逐渐增大。可见，模型并非越复杂越好，增加模型的复杂度不能持续提升其在测试集上的性能。

一个复杂模型在训练集上得到了比较好的性能，而在测试集上性能表现十分不理想，这就是过拟合（Overfitting）问题。

在机器学习中，我们更多的是关注模型在测试集（而非训练集）上的表现，这关乎模型的泛化能力。因此在选择模型时，应该以在测试集上表现最佳的模型作为最终选择。

ML Lecture 1: Regression - Case Study_第23张图片

解决过拟合的其中一个方法是收集更多的数据。当持有更多数据的时候，会观察到：进化后的CP值 $y$ 不止受到 $x_{cp}$ 的影响，同时也与pokemon所属的物种 $x_s$ 有关。

ML Lecture 1: Regression - Case Study_第24张图片

例如下图中，颜色不同的散点分别对应着不同的物种：蓝色是波波（Pidgey），绿色是绿毛虫（Caterpie），黄色是独角虫（Weedle），红色是伊布（Eevee）。容易观察到，在同一物种下，pokemon的

y

与

x_{cp}

之间呈线性关系。

ML Lecture 1: Regression - Case Study_第25张图片

因此拟合模型六，使 $x_s$ 这个解释变量也纳入考虑， $x_s$ 表示pokemon对应的种类：
$\left \{ \begin{aligned} b_1+ w_1 \cdot x_{cp} &，x_s = Pidgey \\ b_2+ w_2 \cdot x_{cp} &，x_s = Weedle \\ b_3+ w_3 \cdot x_{cp} &，x_s = Caterpie \\ b_4+ w_4 \cdot x_{cp} &，x_s = Eevee \end{aligned} \right.$ 该模型表明，当 $x_s$ 取不同的值时，函数表达式的参数不同， $y$ 值也不同。

尽管模型六是一个分段的函数集，但它仍然是一个线性模型，因为它可以被表示为如下形式：

相当于引入 $\delta(x_s = Pidgey)$ 、 $\delta(x_s = Weedle)$ 、 $\delta(x_s = Caterpie)$ 、 $\delta(x_s = Eevee)$ 作为哑变量。其中，蓝色方框内的 $8$ 个变量可分别用 $x_i（i=1,2...8）$ 代替， $b_1,w_1,...,b_4,w_4$ 是待估计的参数，则模型六被简化为线性模型： $y = b_1 x_1 + w_1 x_2 + b_2 x_3 + w_2 x_4 + b_3 x_5 + w_3 x_6 + b_4 x_7 + w_4 x_8$

用此模型在训练集上拟合，可求得 $8$ 个参数，代表四条曲线，分别反映四个物种的 $y$ 与 $x_{cp}$ 之间的联系。

下图为模型六对四个物种的拟合直线。由于Caterpie（绿）与Weedle（黄）的拟合结果十分接近，几乎重合，所以图中看上去只有三条直线（实际有四条直线）。最后，在训练集上平均误差为 $3.8$ ，在测试集上平均误差为 $14.3$ 。

ML Lecture 1: Regression - Case Study_第28张图片

考虑了物种因素后，模型六的性能虽然有所提升，但在训练集上的平均误差还是没有接近 $0$ ，这可能是由于直线不足以描述 $y$ 与 $x_{cp}$ 之间的关系，又或者是还有其他相关的因素未加以考虑：例如观察如下散点图发现，pokemon的HP值 $x_{hp}$ 也可能会影响 $y$ 。

因此，在模型六加入了物种因素的基础上，拟合模型七：

模型七加入了：进化前的CP值的平方项 $x_{cp})^2$ 、体重 $x_w$ 、高度 $x_h$ 、HP值 $x_{hp}$ 等因素，含有 $18$ 个待求解参数（ $w_1,...,w_{14}；b_1,...,b_4$ ）。

最后得到训练集上的平均误差为 $1.9$ ，测试集上的平均误差高达 $102.3$ ，出现严重过拟合，说明模型七的表现不理想。

采用正则化防止过拟合

定义了损失函数后，我们通常按照使训练集的损失函数最小化/平均误差最小化的原则求最优参数，并得到最佳预测函数 $f^*$ 。但通过这种方法求得的函数，很多时候会产生过拟合问题。

对于上一节设计模型时出现的各种过拟合问题，如果具备相应的领域知识（Domain Knowledge），那么可以根据先验知识人为剔除一些不重要的因素（比如先验知识告诉我们 $y$ 很大程度上受到 $x_{cp}$ 的影响，但一般不会受到 $x_w$ 的影响）。但在无法对各个因素做出准确判断的情况下，通常采正则化（Regularization）来防止过拟合。

正则化方法对损失函数进行了重新定义，在原有损失函数的基础上，加入了一个正则项。假设线性模型为： $\sum_i w_i x_i$ 其中 $x_i$ 代表不同的特征/指标： $x_{cp}，x_{hp}，x_w，x_h$ 等。则原来的损失函数（未加入正则项）定义为： $\sum_n ( \hat{y}^n - (b + \sum_i w_i x_i^n))^2$ 重新定义后的损失函数（加入正则项）为： $\lambda \sum_i (w_i)^2 = \sum_n ( \hat{y}^n - (b + \sum_i w_i x_i^n))^2 + \lambda \sum_i (w_i)^2$

正则项 $\lambda \sum_i (w_i)^2$ 是由 $\lambda$ 和所有权重参数 $w_i$ 的平方和构成的。定义新的损失函数 $L^{'}$ 后，求 $L'_{min}$ 意味着同时求 $L_{min}$ 和 $[\lambda \sum_i (w_i)^2]_{min}$ ：即，它不仅要求原有的损失函数 $L$ 最小化，还要求正则项也最小化。

使原来的损失函数 $L$ 最小化容易理解。但最小化正则项对于模型选择有什么帮助呢？或者说，加入正则项的意义是什么？

首先明确，在模型 $\sum_i w_i x_i$ 中，参数 $w_i$ 很小意味着模型里的函数是比较平滑的。

所谓函数平滑（Smooth），是指当输入值 $x_i$ 发生变化时，这种变化不会引起输出值 $y$ 的剧烈变动，即 $w_i$ 越小， $\Delta x_i$ 对 $\Delta y$ 的影响越小（可以理解为：较小的 $w_i$ ，降低了因 $x_i$ 变化对 $y$ 造成的冲击）。举个极端例子，当 $w_i = 0$ ， $y = b$ 是一条相当平滑的直线， $x_i$ 的任何变化都不会对 $y$ 造成影响。

因此，正则项最小化意味着我们寻找的最佳函数，要尽可能的平滑，能够最大程度地抵挡因输入值变化而对输出值带来的冲击。

正则项存在的意义是：当我们从一个模型（函数集）中挑选最佳函数 $f^*$ 时，正则项的存在能够避免挑到对波动十分敏感的函数。为什么我们不喜欢那些敏感度高、波动程度大的函数（而倾向于选择平滑函数）？因为波动幅度太大的函数通常会造成很大的误差，相比之下，平滑函数的预测结果更缓和，即便有误差，也不会一下子偏离太远。简言之，平滑函数的表现更符合我们对预测模型的期待。

然而，正则项也有失灵的时候。正则项的存在是为了使最终挑出来的预测函数 $f^*$ 更平滑，减小测试集上的误差。但，假如真实的函数本身就是一个波动性很大的函数，我们还利用正则项去挑选平滑的预测函数，那么与真实函数恰恰背道而驰。不过这种情况应该是极少见的，大多数情况下，我们还是宁愿相信：一个符合自然规律、符合人类直觉的函数，不应该是波动得特别厉害的函数。所以总体而言，采用正则项对改进拟合效果还是颇有帮助的。

综上，新的损失函数 $L^{'}$ 由于加入了正则项，令我们的优化目标变为：

寻找最佳函数 $f^*$ ，使得原来的损失函数 $L$ 达到最小化
这个最佳函数 $f^*$ 的各权重参数 $w_i$ 也是尽可能小的，从而使 $f^*$ 尽可能地平滑

对于正则项，还有两个需要注意的地方：

正则项中还有一个常数 $\lambda$ ，它是一个需要手动设置的参数，决定了 $f^*$ 的平滑程度（ $\lambda$ 越大，则要求 $f^*$ 越平滑）
正则化通常只作用于权重参数 $w_i$ （一般不对偏置参数 $b$ 做正则化）。如果非要为偏置参数 $b$ 构造正则项，并不是错误的做法，但在实际经验中， $b$ 的正则化通常对改进模型没有帮助。因为偏置参数 $b$ 这一项只代表了一条水平线，它对函数 $f^*$ 是否平滑没有任何影响，只决定 $f^*$ 上下移动的位置。

ML Lecture 1: Regression - Case Study_第31张图片

如果用不同的正则项参数 $\lambda$ 拟合模型，会发现：随着 $\lambda$ 不断增大，得到的最佳函数 $f^*$ 也越来越平滑。这个过程中， $f^*$ 在训练集的平均误差从 $1.9$ 增大到 $8.5$ ，这个变化是合理的：因为没有加入正则项的时候，我们的优化目标只有 $argmin\{L\}$ ，而加入正则项使我们同时要考虑减小 $w_i$ ，使 $f^*$ 变得平滑。并且随着 $\lambda$ 的增大，我们更倾向于得到平滑的 $f^*$ ，这是以训练集的平均误差上升为代价的。但训练集的平均误差增大，不代表测试集的平均误差会增大。当 $\lambda=100$ 时，测试集上的平均误差最小，此时的参数为最优参数。

ML Lecture 1: Regression - Case Study_第32张图片

补充讨论

进化后的CP值与进化前的CP值、pokemon的种类有密切关系，但仍然可能存在其他隐藏的关联因素
后面将继续介绍梯度下降法的相关理论
加入正则项，最后在测试集上得到的最好结果是， $\lambda = 100$ ，平均误差为 $11.1$ 。假如继续收集新的数据，平均误差会增大还是减小？（答案：平均误差将会增大，大于 $11.1$ ）

ML Lecture 1: Regression - Case Study_第33张图片

你可能感兴趣的:(李宏毅机器学习系列)

AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Kafka系列之—向Kafka 写入数据（四）葛旭朋 Kafka kafka 分布式 java
一，创建Kafka生产者1.1必选的三个属性1.1.1bootstrap.servers指定broker的地址清单，不需要包含所有的broker地址，生产者会从给定的broker里找到其它broker的信息，建议最少提供两个broker的信息。1.1.2key.serializerbroker希望接收到的消息的键和值都是字节数组。1.1.3value.serializer指定的类会将值序列化。1.
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库后端java
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter是什么？
超小巧且经济的CMOS工业相机——Vieworks的VZ系列 51camera 工业相机
今天我们来看一款超级紧凑小巧且具有成本效益的工业相机——Vieworks的VZ系列。它主要有以下四大特点：1、超紧凑的工业相机VZ系列是最小的相机，适用于广泛的机器视觉应用。由于其29mmx29mm的紧凑外壳尺寸和重量轻，VZ系列可以简单地取代大多数工业相机。2、无缝安装和高可用性PoE千兆以太网和USB3.0接口使得系统集成相对容易，减少了电缆长度和多个摄像头设置。VZ系列通过使用千兆以太网和U
工业相机的主要参数及计算 51camera 工业相机
工业相机是机器视觉系统中的关键组件，其本质是将光信号转变为有序的电信号，进而实现数字图像的获取，广泛应用于工业生产、检测、测量等领域。其成像原理与小孔成像类似，但更为复杂。当被摄物体反射的光线通过工业镜头折射后，会投射到相机的感光传感器上，这个感光传感器通常是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。dalsanano系列工业相机1、工作原理图像采集：通过镜头收集被拍摄物体反射或透
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
C++与C语言的区别 @haihi c++c语言开发语言
前言本文主要用C语言和C++做对比来学习C++，便于个人理解。C++包含C语言，是对C语言的扩展，在C++中，支持C语言的语法使用，C++是C语言的超集一、C++与C语言的区别C语言简单高效，适合低级系统编程和硬件相关的开发。C++更加灵活、强大，适合大型项目开发，尤其是需要面向对象、代码复用和复杂数据结构的应用。1.编程范式C语言：C是一种过程式编程语言，主要关注函数和过程。程序是通过一系列函数
从C语言开始的C++编程生活（1） Elnaij C++基础知识 c语言 c++
前言本系列文章承接C语言的学习，需要有C语言的基础才能学会哦。第1篇主要讲的是有关于C++的命名空间、输入和输出。C++才起步，都很简单呢！目录前言命名空间namespace基本语法作用使用命名空间域作用限定符::基本语法usingnamespace命名空间域名基本语法作用using命名空间域名::变量名基本语法作用C++的输入和输出“>”流提取符基本语法代码解释命名空间namespace基本语法
HarmonyOS开发，A持有B，B引用A的场景会不会导致内存泄漏，代码示例告诉你答案 MardaWang HarmonyOS NEXT OpenHarmony harmonyos 华为
问题：A持有B，B引用A的场景会不会导致内存泄漏？答案：方舟虚拟机的内存管理和GC采用的是根可达算法，根可达算法可以解决循环引用问题，不会导致A引用B，B引用A的内存泄漏。根可达算法原理根可达算法以一系列被称为“根对象”（如栈中的局部变量、静态变量等）作为起始点，从这些根对象开始向下搜索，能够被搜索到的对象被认为是可达对象，而那些无法被搜索到的对象则被判定为不可达对象，会在垃圾回收时被清理。所以，
汇川EASY系列之以太网通讯（MODBUS_TCP做从站） Amos_ FAT 汇川EASY 网络服务器经验分享
汇川easy系列PLC做MODBUS_TCP从站，不需要任何操作，但是有一些需要知道的东西。具体如下：1、汇川easy系列PLC做MODBUS_TCP从站，，ModbusTCP服务器默认开启，无需设置通信协议（即不需要配置），端口号为“502”。ModbusTCP从站最多支持31个ModbusTCP客户端（ModbusTCP主站）同时连接。2、做为串口通讯的衍生，功能码是应知应会的。具体如下：关于
【H2O2 | 软件开发】前端深拷贝的实现过期的H2O2 【H2O2】全栈面试题 javascript 开发语言 ecmascript 前端
目录前言开篇语准备工作正文概述JSON方法递归其他结束语前言开篇语本系列为短篇，每次讲述少量知识点，无需一次性灌输太多的新知识点。该主题文章主要是围绕前端、全栈开发相关面试常见问题撰写的，希望对诸位有所帮助。如果您需要为面试八股文做准备，笔者建议重点关注加粗强调部分，它们是概念中的关键词。准备工作软件：【参考版本】VisualStudioCode系统版本：Win10/11正文概述概括地来说，前端实
【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破寻道AI小兵 AI大模型前沿技术追踪人工智能语言模型 AIGC
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破目录系列篇章前言一、项目概述二、技术原理（一）异构低秩适应（H-LoRA）（二）分层视觉感知（HVP）（三）三阶段学习策略（TLS）三、
西门子自动化冗余系统通过多层次冗余设计 D-海漠网络
西门子自动化冗余系统通过多层次冗余设计（包括PLC、电源、网络、从站及I/O模块）来确保系统的高可用性和稳定性。以下是具体实现方法及技术要点：一、PLC冗余设计硬件冗余架构冗余CPU配置：采用S7-1500R/H系列冗余CPU（如1515R或1517H），主备CPU通过冗余连接（X1接口）同步数据和程序，主CPU故障时备CPU无缝接管，切换时间可低至300ms614。同步机制：主备CPU通过同步链
面试官问：什么是分布式定时任务调度？鸡米花不花 java 分布式分布式数据库网络协议 java
任务调度的背景在业务系统中有很多这样的场景：1、账单日或者还款日上午10点，给每个信用卡客户发送账单通知，还款通知。如何判断客户的账单日、还款日，完成通知的发送？2、银行业务系统，夜间要完成跑批的一系列流程，清理数据，下载文件，解析文件，对账清算、切换结算日期等等。如何触发一系列流程的执行？3、金融机构跟人民银行二代支付系统对接，人民银行要求低于5W的金额（小额支付）半个小时打一次包发送，以缓解并
Java常用API EmbodiedTech Java架构栈 java dubbo 开发语言
一、今日内容介绍、API概述常用API（全称是ApplicationProgramInterface应用程序接口），说人话就是：别人写好的一些程序，给咱们程序员直接拿去调用。Java官方其实已经给我们写好了很多很多类，每一个类中又提供了一系列方法来解决与这个类相关的问题。比如String类，表示字符串，提供的方法全都是对字符串操作的。比如ArrayList类，表示一个容器，提供的方法都是对容器中的
HoRain云--Node.js文件下载服务实战：Express实现安全高效的文件传输 HoRain云小助手 node.js express 安全
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
选择排序算法解析与代码实例展示程序员总部 java 排序算法算法 java
选择排序是一种简单、直观的排序算法，适合用来处理小规模的数据。它的基本思想是每次从待排序的元素中选择最小的元素，然后将其放到已排序序列的末尾。听起来挺简单吧？接下来，让我们详细了解一下选择排序的工作原理、代码实现和一些性能特点。选择排序的步骤可以分为几个关键部分：初始状态：假设我们有一个数组，里面存放了一系列的数字。比如说，数组是[64,25,12,22,11]。在排序之前，这些数字是无序的。选择
qt如何实现跨平台，linux和windows开发，并且qt代码中如何处理跨平台阳光开朗_大男孩儿 qt笔记 qt linux windows
Qt是一个非常强大的跨平台开发框架，它可以让你在多个平台上编写和运行相同的代码，包括Linux、Windows、macOS等。Qt通过一系列的平台抽象层和构建系统，提供了无缝的跨平台支持。下面是Qt如何实现跨平台开发，以及在Qt代码中如何处理跨平台的具体方法：1.Qt的跨平台实现机制Qt通过以下几种机制来实现跨平台：(1)平台抽象层（PlatformAbstractionLayer,PAL）Qt的
Linux Kernel入门到精通系列讲解（RV-Kernel 篇） 5.3 从零移植 busybox，基于RISC-V 嵌入式内核源码 Linux kernel从入门到精通 linux risc-v rootfs qemu kernel 嵌入式芯片
1.概述上一章节我们已经成功启动了Ubuntu，但是由于Ubuntu占用系统空间过大，所以我转向占用较小的busybox,预计就占用30M左右。2.源码下载下载地址3.编译busybox在上一章节中，我们就提到了kernel在启动时会去初始化rootfs，具体为下列四个脚本，如果我们不去写这四个脚本会是什么样呢？如下图，它会不断重复打印log。接下来我们就先去编译busybox。[
文件的输出与读写 2.0 大力水手偷吃菠菜变成米老鼠 c语言
一、文章内容概述（一）知识要点文件操作函数概述：介绍了C语言中用于文件操作的一系列函数，这些函数是实现文件读写功能的基础工具。文件流概念定义与分类：FILE*stream这种定义方式包含了各种各样的流。流是一种用于在程序和外部设备（如文件、控制台、网络等）之间进行数据传输的抽象概念。具体类型文件流：用于读取与写入在磁盘上的文件。例如，通过文件流可以从硬盘上的文本文件中读取数据，并将其显示在程序中，
小米5miui10android,小米又一款手机适配Android 10！MIUI开发版暂停，米粉别着急！... weixin_39843677
2020年3月看到市场上的智能手机又要迎来一波新形势，更多厂家开始在手机的外观、形态、材质上下功夫。2月发布的小米10系列，几次开卖总是遇到抢购无货状态，看来雷军的高端手机市场卓有成效。除了硬件之外，手机系统其实还是挺重要的，日常体验才是王道。看到iOS最近几次测试版的更新不如人意，bug太多就是日常应用也会有适配兼容难的现象，卡顿闪退带来的效果总是不太好，影响用户去正常使用手机。再看看安卓阵营，
面试经典算法150题系列-除自身以外数组的乘积 betterManchester 面试经典算法题150题算法面试 java
除自身以外数组的乘积给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。示例1:输入:nums=[1,2,3,4]输出:[24,12,8,6]示例2:输入:nums=[-1,1,0,-3,3]输出
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
算法模型从入门到起飞系列——八大排序算法（二）小小面试官算法模型算法排序算法 java
上篇文章详细的描述了四种简单的排序算法及其优化的一些方案，其实比起基本的排序算法，我觉得学习者更应该掌握优化后的排序算法甚至希望可以在评论区上看到更多不同的解法，只要是自己去深入研究的，都可以放到评论区一起探讨甚至给博主纠正。下面就是要详细刨析另外四种不常见的排序算法，性能更高，但是其实真正的使用场景偏少。文章目录一、常见八大排序算法性能对比二、归并排序(MergeSort)2.1归并排序核心思想
【教程4＞第2章＞第30节】本章整体思维导图与学习总结 fpga和matlab #第3章·通信—高阶调制解调 FPGA 教程4 学习总结高阶调制解调
教程4.目录.目录1.本章节目录2.本章节思维导图3.本章节学习案例与实际应用欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程3:simulink入
软件测试服务商怎么选，看这篇文章就够了阿里云
软件行业的发展历程中,软件测试从最初单纯依靠大量人工进行测试,逐渐向工具化、平台化转变。早期,由于软件开发规模相对较小,技术迭代速度较慢,软件测试主要依赖人工手动执行各类测试用例,耗费大量人力与时间。随着软件复杂度提升、开发周期缩短,自动化测试工具应运而生,帮助测试人员提高效率,减少重复性工作。而近年来,云测试平台的兴起,更是打破了地域与设备限制,实现了测试资源的集中管理与高效利用。这一系列变迁不
DeepSeek高能低耗AI创作突破智能计算研究中心其他
内容概要随着人工智能技术向垂直领域加速渗透，生成式模型的应用边界正经历革命性拓展。DeepSeek系列产品通过670亿参数混合专家架构，构建起覆盖学术研究、内容创作与编程开发的多模态解决方案。该架构融合视觉语言理解与多语言处理能力，在保持高响应速度的同时，显著降低算力消耗，其单位计算成本仅为同类产品的三分之一。值得关注的是，系统搭载的DeepSeekProver学术引擎可自动生成文献综述框架，而D
数据结构：数组和链表 OutlierLi 数据结构代码随想录数据结构链表
数据结构：数组和链表数组数组基础数组是一种数据结构，它在计算机内存中占据一段连续的空间，并由一系列元素组成，这些元素的类型相同。在数组中，每个元素都可以通过数组索引（通常是整数）快速访问，索引通常从0开始。数组的特点是其大小（即可以容纳的元素数量）在被创建时就已经确定，并且在整个使用周期内保持固定。vector向量array数组和vector数组的区别：固定大小vs动态大小：std::array是
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end