csdn0006

[Learning-from-data]无限假设空间的可学性以及模型泛化

Theory of Generalization

样本外误差 $E_{out}$ 测量了训练集D上学习的模型在unseen data上的泛化能力. $E_{out}$ 是基于整个输入空间X上的表现来测量的.如果使用样本集来计算模型的 $E_{out}$ ,这些样本点必须是"unseen",没有在训练集中出现过.

对应的,样本内误差 $E_{in}$ 是基于训练集中的样本点,它评估模型在训练集上的表现.

Generalization error泛化误差. 泛化是学习中的一个关键问题.Generalization is a key issue in learning.泛化误差可以定义为 $E_{in}$ 和 $E_{out}$ 两者之间的差异.Hoeffding不等式提供了一个泛化误差概率边界的描述.

$E_{in}(g)-E_{out}(g)| > \epsilon] \leq 2Me^{-2\epsilon^2 N}$ for any $\epsilon > 0$ .

同时可以知道, $|E_{in}(g)-E_{out}(g)| \leq \epsilon$ 的概率为 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …^{-2N\epsilon^2$ ,也就是说 $E_{out}(g) \leq E_{in}(g) + \epsilon$ ,选定一个tolerance $\delta$ ,所以 $\delta = 2Me^{-2N\epsilon^2}$ , $\epsilon = \sqrt{\frac1{2N} ln\frac{2M}{\delta}}$ ,最终,

$E_{out}(g) \leq E_{in}(g) + \sqrt{\frac1{2N} ln\frac{2M}{\delta}}$ .

这个不等式提供了一个泛化边界.

$|E_{in}-E_{out}| \leq \epsilon$ ,同时也保证对于所有的 $\in H$ 来说, $E_{out} \geq E_{in} - \epsilon$ .对于最终的假设函数g既想让它在unseen data上表现良好,又想它是在所有假设集中做的最好的(H中不存在其他假设函数.使得 $E_{out}(h)$ 比 $E_{out}(g)$ 要好.). $E_{out}(h) \geq E_{in}(h) + \epsilon$ 这个边界确保不能做的更好了,因为选择的其他假设h对应 $E_{in}$ 都比g要大,因此对应的 $E_{out}$ 也要比g要大,样本外表现相对变差.

误差边界 $\sqrt{\frac1{2N} ln\frac{2M}{\delta}}$ 依赖于假设空间H的大小M.如果H是无限集合,那么这个边界就没有意义了(边界趋向于无限大).不幸的是,实际情况下大多数学习模型都是无限集合.

为了在无限集合H上继续讨论模型的泛化能力,我们需要对上面的式子做一些变形,想用有限的数量去代替M,这样边界就有意义了.

之前右边界M对应:

确保最终选择的函数g: $|E_{in}(g)-E_{out}(g)| > \epsilon$ ,因为g是H中的一个假设.将 $\beta_m$ 代表事件" $|E_{in}(h_m)-E_{out}(h_m)| > \epsilon$ ",因此,对应不等式变为:

但是如果各个事件之间相互重叠,那么右边界就变得比实际上大得多.比如有3个假设,不同事件的面积代表对应的事件发生的概率, $\beta_1,beta_2,beta_3$ 三个事件的联合边界比3个事件对应面积小得多,尽管面积和的边界是正确的.由此推导,假设空间中如果有假设函数相差不多,就会造成大量的重叠,导致右边界比实际值大得多(放得太多!).我们需要想办法将对应的假设划分开来(归类,分成不同的类别),从而将无限的假设集变成有限的假设集.

Effective Number of Hypotheses假设空间的有效数量

介绍一个概念growth function增长函数–定义假设空间的有效数量.我们用growth function来代替上面不等式中的M,growth function是一个组合量,能度量假设空间H中假设函数之间的差异,也就是图中不同假设之间的重叠面积的大小.

对于一个2分类的目标函数,每个 $\in H$ 将输入空间X映射到{-1,1}上.growth function的定义是基于假设空间H中不同假设函数的数目,而且是基于有限的样本点,而不是整个输入空间X.
一个假设函数 $\in H$ 应用到有限样本集上 $x_1,x_2,...,x_N \in X$ ,可以得到一个二分类的N元组 $h(x_1), h(x_2),...,h(x_N)$ .N元组将N个样本集分为两类:正类,负类,这个N元组叫做dichotomy(二分)—对数据点一次结果划分.每个 $\in H$ 在N个数据点上都会产生一个dichotomy,但是不同的假设函数产生的dichotomy可能完全相同.

定义一 $x_1,x_2,...,x_N \in X$ ,在N个数据点上,假设空间H产生的dichotomies定义为:

$H(x_1,x_2,...,x_N) = \{(h(x_1),h(x_2),...,h(x_N))|h \in H\}$ .

H(x_1,x_2,…,x_N)空间是假设空间H中每个假设函数对N个数据点划分产生的dichotomy的集合空间.一个大的H(x_1,x_2,…,x_N)意味着假设空间更加多种多样–在N个数据点上产生的dichotomy更多.growth function基于dichotomies的数目.

定义二 假设空间H上的growth function定义为:

$m_H(N) = max_{x_1,x_2,...,x_N \in X}|H(x_1,x_2,...,x_N)|$

其中|\cdot|表示集合中元素的数目. $m_H(N)$ 表示在任意N个数据点假设空间H可以生成的不同dichotomies的最大数目.为了比较 $m_H(N)$ ,我们需要考虑输入空间X中N个数据点的所有可能,然后选择能产生最多dichotomies的数据点集.和M类似, $m_H(N)$ 是假设空间H中假设函数数目的一种度量,不同之处在于每个假设是在N个输入点上进行衡量,而不是整个输入空间X.对于任意假设空间H,因为 $H(x_1,x_2,...,x_N) \subseteq \{-1,+1\}^N$ , $m_H(N)$ 最大值为:
$m_H(N) \leq 2^N$ .

如果H能够生成N个数据点上所有的可能的类别分布,也就是说 $H(x_1,x_2,...,x_N) = \{-1,+1\}^N$ ,称假设空间H能shatter(打碎)N个数据点[能覆盖N个数据所有可能的分类集合].

图中可以看到, $m_H(N)$ 是N个数据点产生不同dichotomies的最大值,(a)图中3点共线时有种情况使用感知机模型不能划分,但是(b)图中3个点可能产生的dichotomies都可以实现,所以 $m_H(3)=8$ ,©图中的dichotomy不同通过感知机生成,所以 $m_H(4)=14$ ,而不是16.同时可以知道随着假设空间H变得复杂, $m_H(N)$ 也逐渐增大–这符合我们的期望.

计算每个假设空间上的增长函数 $m_H(N)$ 并不实际,而且也没有必要,因为我们使用增长函数 $m_H(N)$ 来代替不等式中的M,我们可以计算增长函数 $m_H(N)$ 的上界,而不是计算增长函数 $m_H(N)$ 的确定值,使用增长函数的上界用在不等式中也成立.

定义三 对于假设空间H,如果k个点组成的输入集不能被假设空间shatter(打碎),那么k定义为假设空间H的break point.

如果k是break point,那么 $m_H(k) < 2^k$ . 通常情况下,计算假设空间H的break point比计算假设空间的增长函数要容易得多.

如果数据点超过k,假设空间更不可能对其shatter,break point更像是对输入情况的一种界限.

我们使用break point k来导出对任意N的增长函数 $m_H(N)$ 的一个边界.比如2维感知机不能把4个点shatter,这个知识对于当输入点是5或更多时,对感知机能产生的dichotomies能有一个限制.接下来,讨论 $m_H(N)$ 的边界是什么.

Bounding the Growth Function增长函数的边界

关于增长函数而言,如果 $m_H(N) = 2^N$ 在某个点被打破,那么 $m_H(N)$ 对于任意值N可以通过这个break point用一个简单的多项式确定边界.如果不存在break point,对于所有N而言, $m_H(N) = 2^N$ 总是成立的.如果用 $m_H(N)$ 来代替不等式中的Ｍ，那么 $\sqrt{\frac1{2N}ln\frac{2M}{\delta}}$ 泛化误差边界无论训练样本N取多大都不可能趋于零( $m_H(N) = 2^N$ );但是如果 $m_H(N)$ 可以用一个多项式来代替,那么当训练样本数 $\to \infty$ ,泛化误差将会趋于零,这意味着在充足样本集下,模型的泛化结果可以非常好.

定理如果存在k,使得 $m_H(k) < 2^k$ 成立,那么,

对于所有的N都成立.RHS是一个N的k-1阶多项式.如果增长函数存在break point k,那么就可以使用N的多项式来确定增长函数的上界,因此可以来替换增长函数.

上面定理的含义是指如果假设空间H存在一个break point,我们就可以确保模型的泛化效果, $m_H(N)$ 存在一个多项式边界.

The VC Dimension VC维

上面的定理可以使用break point对整个增长函数growth function确定边界.break point越小,边界越好(越小).

VC维 假设空间H的VC维 $d_{VC}(H)$ ,简写为 $d_{VC}$ ,是指能被H打散的最大的示例集（数据集）的大小N,N满足 $m_H(N)=2^N$ .如果对于所有的N,等式 $m_H(N)=2^N$ 都成立,那么 $d_{VC}= \infty$ .

如果 $d_{VC}$ 是假设空间H的VC维,那么break point $k = d_{VC}+1$ .因为根据VC维定义,VC维是假设空间H能打碎的最大样本集,所以k就是H的break point,而且不可能存在更小的break point了,因为H可以打碎 $d_{VC}$ 个样本点,对于更小的样本点更不在话下.

因为 $m_H$ 的break point k满足 $k=d_{VC}+1$ ,所以定理可以改写为:

所以,VC维是增长函数 $m_H(N)$ 的多项式阶数.这个多项式边界可以进行简化.可以用归纳法证明:

$m_H(N) \leq N^{d_{VC}} + 1$ .

这样,增长函数growth function可以用VC维来进行约束,接下来就是分析使用增长函数 $m_H(N)$ 对M进行替换后,泛化边界的如何变化.使用 $m_H(N)$ 替换M后,

已知增长函数 $m_H(N)$ 可以被一个N的多项式约束,除非假设空间为VC维无穷大 $d_{VC}(H) = \infty$ .增长函数取对数后,呈对数级增长,然后被 $\frac1{N}$ 减小,因此,如果训练样本N足够大,那么 $E_{out}$ 会接近于 $E_{in}$ .(证明了无穷大时,可学性的第一个问题).

只有当VC维趋于无穷大时,假设才会失效.对于任意有限的VC维来说,误差收敛到0的速度取决于VC维的大小,因为VC维是多项式的阶数.VC维越小,收敛到0的速度越快.

但是仅仅用 $m_H(N)$ 来代替泛化边界中M是不够的,还需要进一步调整.不过VC维在其中还扮演了非常重要的角色.可以将假设空间中假设分为两类:good models & bad models.'Good models’指VC维有限,且样本集N足够大的模型,这种模型可以保证 $E_{out} \approx E_{in}$ ,样本集的表现可以泛化到样本集之外;'bad models’指VC维无穷大,对于bad models无论样本集N取多大,我们不能基于VC维对 $E_{in}$ 和 $E_{out}$ 进行泛化比较.

可以将VC维看做模型的"有用参数量",模型参数越多,假设空间假设函数越多,这反应了增长函数 $m_H(N)$ 的大小.比如说 $w_0,w_1,...,w_d$ 的感知机模型,VC维是d+1.对于其他模型而言,有用参数可能不太明显.VC维能衡量有用参数或自由度,这些量可以保证模型数目的多样性.但多样性也不是越多越好,比如 $m_H(N) = 2^N$ 而且 $d_{VC} = \infty$ 的模型,这种情况下不能对模型进行泛化.

The VC Generalization Bound VC泛化边界

如果将增长函数growth function作为假设空间有效假设的一种度量量,那么使用 $m_H(N)$ 代替不等式中M后,可以得到:

但这个不等式证明并不是最终的形式.需要修改泛化边界才能成立.使用下面定理,可以到处正确的边界,叫做VC维泛化边界.对于任意二分类目标函数f,任意假设空间H,任意学习算法A,任意的输入概率分布P都成立:

定理:VC泛化边界 对于任意tolerance $\delta > 0$ ,

$E_{out}(g) \leq E_{in}(g) + \sqrt{\frac8{N}ln\frac{4m_H(2N)}{\delta}}$

成立的概率是 $1-\delta$ .

如果和上面的不等式进行比较,可以发现下面不等是的边界更大(move the bound in the weaker direction).只要VC维是有限的,误差就会收敛于0(尽管速度变慢),因为和 $m_H(N)$ 一样, $m_H(2N)$ 也是N的 $d_{VC}$ 阶多项式.这意味着如果有足够的数据,无限假设空间H中有限VC的每个假设函数的 $E_{in}$ 能很好的泛化到 $E_{out}$ 上.其中的关键在于使用定义假设空间有效假设的有限增长函数来替代假设空间的真正数目,从而确定边界.

VC维泛化边界是机器学习理论中非常重要的一个数据结果.它证明了无限假设空间的可学性问题.
The data set D is the source of randomization in the original Hoeffding Inequality.

Interpreting the Generalization Bound 泛化边界解释

上面不等式是一个通用结果,可以应用到所有的假设集,所有的学习算法,输入空间,概率分布以及二分类目标函数上.同时也可以扩展到其他类型的目标函数上.因为不等式结果的通用性,因此对于有的模型来说边界可能过于松loose,原因在于这个相同的边界要覆盖到多种类型模型上.

VC维可以用作一种评估模型泛化能力的一个指标,但是相对意义上的,并不具有绝对意义.在实际问题中会采用不同的边界.

Sample Complexity样本复杂度

样本复杂度是指模型达到一定的泛化能力时所需要的训练样本数目N.模型的泛化表现可以用两个参数衡量: $\epsilon$ 和 $\delta$ .误差容忍度 $\epsilon$ 表示容忍的泛化误差量,置信度参数 $\delta$ 表示大于容忍泛化误差边界的概率.随着 $\epsilon$ 和 $\delta$ 变小,训练样本数N的变化速度表示了为达到一定泛化能力所需要的训练样本数.

对于给定的模型,可以用VC边界来建立样本复杂度.对于固定的 $\delta$ ,假定泛化误差边界最多是 $\epsilon$ .从不等式中可以知道,泛化误差限制在 $\sqrt{\frac8{N}ln\frac{4m_H(2N)}{\delta}}$ ,为了确保不等式 $\sqrt{\frac8{N}ln\frac{4m_H(2N)}{\delta}} \leq \epsilon$ 成立.为了保证泛化误差最大是 $\epsilon$ ,那么训练集样本大小N:

$\geq \frac8{\epsilon^2}ln\frac{4m_H(2N)}{\delta}$

但是这个样本复杂度N的边界不太明显,因为N出现在不等式的两端.如果用基于VC维的多项式代替 $m_H(2N)$ ,可以得到:

$\geq \frac8{\epsilon^2}ln\frac{4((2N)^{d_{VC}}+1)}{\delta}$

但这个不等式同样也是不确定的.我们可以用简单的迭代方法计算N的数值(对N初始化一个值,然后反复计算不等式,直到N收敛).

Penalty for Model Complexity 模型复杂度惩罚

样本复杂度是在泛化误差边界 $\epsilon$ 和置信度 $\delta$ 确定的情况下对训练样本N的一个估计.但是在大多数实际情况中,都是给定一个固定大小的训练样本集D,因此N大小是确定的.在这种情况下,对于给定N,模型在unseen data上表现如何是我们所关注的问题.

$E_{out}(g) \leq E_{in}(g) + \sqrt{\frac8{N}ln\frac{4m_H(2N)}{\delta}}$

如果用基于VC维的多项式代替 $m_H(2N)$ ,可以得到out-of-sample误差的另一种边界表示:

$E_{out}(g) \leq E_{in}(g) + \sqrt{\frac8{N}ln\frac{4((2N)^{d_{VC}}+1)}{\delta}}$

可以将 $E_{out}(g)$ 的边界看做两部分,第一部分是 $E_{in}(g)$ ,第二部分是随着假设空间H的VC维而变化的量 $\Omega(N,H,\delta)$ ,所以:

$E_{out}(g) \leq E_{in}(g) + \Omega(N,H,\delta)$

其中,

$\Omega(N,H,\delta) = \sqrt{\frac8{N}ln\frac{4m_H(2N)}{\delta}} \leq \sqrt{\frac8{N}ln\frac{4((2N)^{d_{VC}}+1)}{\delta}}$

可以将 $\Omega(N,H,\delta)$ 看做是对模型复杂度的一种惩罚.当使用更加复杂的假设空间H时(VC维增加),右边不等式边界增加,因此样本外数据上的 $E_{out}(g)$ 表现会恶化.如果用相同的训练样本去拟合一个相对简单模型时, $E_{out}(g)$ 变现会更好(右边界变小).从模型复杂度惩罚的等式来看,如果用更高的置信度(更小的 $\delta$ ),那么模型会变差;如果用更多样本N,模型会变好.

如果用更复杂的假设空间H(更好的VC维),那么 $\Omega(N,H,\delta)$ 会变大,但用数据去拟合模型时,由于有更多的假设可以选择, $E_{in}(g)$ 会变小.因此存在一个权衡(tradeoff):更复杂的模型可以让样本集模型 $E_{in}(g)$ 表现变好,但是 $\Omega(N,H,\delta)$ 会增加(惩罚度变大,因此 $E_{out}(g)$ 变差,泛化效果不好).最佳的模型是两个量的组合值( $E_{out}(g)$ )能最小.

The Test Set 测试集

泛化边界是基于 $E_{in}$ 的对 $E_{out}$ 的一个宽泛估计.这个估计对于训练过程来说是一个指导,但如果目标是得到一个关于 $E_{out}$ 的精准预测,这个边界作用不大.

一种可选方法是使用test set测试集对 $E_{out}$ 进行估计,测试集中的数据并不应用在训练过程中.最终的假设函数g是在测试集上进行评估,评估结果作为 $E_{out}$ 的一个估计.

把测试集上的测试结果称作 $E_{test}$ .当我们用 $E_{test}$ 作为 $E_{out}$ 的一个估计时,事实上假定 $E_{test}$ 泛化效果很好,接近于 $E_{out}$ .但是, $E_{test}$ 和 $E_{in}$ 类似只是一个对样本结果估计.我们如何确保 $E_{test}$ 泛化效果如何呢?
$E_{test}$ 泛化效果相关的假设的有效数目是1.因为考虑到测试集,只存在一个假设,就是训练过程中产生的最终假设函数g.选择的测试集不同并不影响最终的假设函数,但如果选择不同的训练集,最终的假设函数会跟着改变.同时Hoeffding不等式可以应用在 $E_{test}$ 的一个假设上,产生的边界比VC维边界更加紧密.测试集越大, $E_{test}$ 对 $E_{out}$ 的估计越准确.

使用测试集有一定的代价.测试集并不影响学习过程的输出,学习过程仅和训练集相关.测试集告诉我们学习过程产生的模型表现如何.因此,如果我们将一部分数据分成测试集,那么用于训练的数据就会减少.因为训练数据是用来在假设空间中选择一个假设,因此训练数据对于选择最终的假设函数至关重要.There is a tradeoff to setting aside test examples.训练集和测试集如何划分,比例如何需要仔细权衡.

在一些文献中, $E_{test}$ 看做是 $E_{out}$ 的同义词.

Other Target Types 其他目标类型

尽管VC维分析是基于二分类目标函数的,但是也可以扩展到实值函数或其他类型函数上.介绍一种新的方法偏差-方差分析.

为了符合实值函数,需要调整 $E_{in}$ 和 $E_{out}$ 的定义.在实值函数中,需要测量h(x)和f(x)之间的距离,而不是判断两个值是否相等.

最常用的误差测量方法是平方误差 $e(h(x),f(x)) = (h(x)-f(x))^2$ .可以定义样本内和样本外的误差.样本外误差是基于整个输入空间X的,

$E_{out}(h) = E[( h(x)-f(x))^2]$

样本内误差是基于整个训练集误差量的平均值:

$E_in(h)=\frac1{N} \sum_{n=1}^N(h(x_n) -f(x_n))^2$

使用样本误差均值去评估误差的期望值.

Approximation-Generalization tradeoff

VC维分析需要选择在训练数据上接近目标函数f和在unseen data上泛化良好这两个变现之间取得平衡的假设.当在假设空间H中选择假设函数时,需要在两个矛盾的目标之间进行权衡:在假设空间中选择可以接近f的假设,同时保证训练数据上学的模型能泛化到整个输入空间上.VC维泛化边界就是一种两者之间权衡方法.如果H太过于简单,选择的假设可能不能接近f,样本内误差很大;如果H太过于复杂,泛化效果变差,因为模型复杂度太大.存在另外一种方法:近似泛化tradeoff.这种方法适合平方误差测量,而不是VC分析中使用的二分误差.这种方法提供了一个新的角度:VC维分析中使用 $E_{in}$ 加上惩罚项 $\Omega$ 来对 $E_{out}$ 进行近似;这里将 $E_{out}$ 分成两部分误差项.

Bias and Variance偏差和方差

样本外误差偏差-方差分解是基于平方误差测量方法的.Out-of-sample误差:

$E_{out}(g^{(D)}) = E_x[ (g^{(D)}(x) - f(x))^2]$

其中, $E_{x}$ 表示关于x的期望值.在最终假设g上添加显性的对数据集D的依赖关系.上面等式中样本外误差的计算依赖于从选择数据集D中训练出来的最终假设g,也就是说是依赖于选择的训练数据集的.我们可以在所有可能的训练集上求期望值,移除对选择的特定数据集D的依赖,从而独立于数据集:

$E_D[ E_{out}(g^D)] = E_D[ E_x[(g^{(D)}(x) - f(x))^2]] \\=E_x[ E_D[(g^{(D)}(x) - f(x))^2]] \\=E_x[ E_D[ g^{(D)(x)^2}] -2 E_D[ g^{(D)(x)}]f(x) + f(x)^2]$

其中, $E_D[ g^{(D)}(x)]$ 是一个平均函数,也可以表示为 $\hat{g}(x)$ .可以理解为生成若干个数据集 $D_1,D_2,...,D_K$ 然后在每个数据集上进行训练学习,生成最终的假设 $g_1,g_2,...,g_K$ .而任意数据x在最终的平均假设上的结果为 $\hat{g}(x) \approx \frac1{K} \sum_{k=1}^K g_k(x)$ .本质上,可以将g(x)看做是一个随机变量,在随机数据集上的随机产生的; $\hat{g}(x)$ 是特定值x在随机变量上的期望值, $\hat{g}$ 是一个函数,取平均值.同时函数 $\hat{g}$ 有一点违反常识: $\hat{g}$ 不在假设空间中,但是在假设空间中函数的平均值.

可以使用 $\hat{g}$ 对out-of-sample误差进行改写:

其中, $\hat{g}(x)$ 是对于D来说是一个常量; $(\hat{g}(x)-f(x))^2$ 测量从数据集D中学到的平均函数与目标函数f之间的差距,可以把这个量称为bias偏差:

$bias(x)=(\hat{g}(x)-f(x))^2$

表示学习模型偏离目标函数的距离(偏差).因为 $\hat{g}(x)$ 是从不限数目多个数据集中学习的,因此它在估计目标函数时仅仅受限于模型自身. $E_D[ (g^{(D)}(x) - \hat{g}(x))^2]$ 是随机变量 $g^{(D)}(x)$ 的方差:

$E_D[ (g^{(D)}(x) - \hat{g}(x))^2]$

评估依赖于数据集的最终假设的变化情况(方差).最后,out-of-sample误差的偏差-方差分解为:

$E_D[ E_{out}(g^{(D)})] = E_x[ bias(x) + var(x)] \\=bias + var$

因为, $bias = E_x[ bias(x)], var=E_x[ var(x)]$ . 这里的推导都基于数据是无噪音的假设.如果是带噪音的数据,在最终的偏差-方差分解中需要加上噪音项.

可以将方差看做学习模型的不稳定性(也就是方差的意义).

在偏差方差分析中学习算法有很大的影响(在VC维分析中却无关紧要).

VC维分析只基于假设空间H,独立于学习算法A;在偏差-方差分析中,学习算法A和假设空间H同样重要.相同的假设空间,不同的学习算法会产生不同的 $g^{(D)}$ .
尽管偏差-方差分析是基于平方误差测量方法的,但是学习算法并不一定是基于最小化平方误差.可以使用任何基于D的标准产生最终假设 $g^{(D)}$ .但一旦产生 $g^{(D)}$ 之后,必须基于平方误差计算偏差和方差.

不幸的是,实际情况下偏差和方差并不能计算出来,因为它们是依赖于目标函数和输入概率分布,而这两项都是未知的.但是偏差-方差分析在开发模型时是一种非常重要的概念性工具.当考虑偏差和方差时,需要考虑两个目标:在不显著增加偏差的基础上尝试降低方差;在不显著增加方差的基础上尝试降低偏差.

The Learning Curve学习曲线

学习曲线概括了当训练集样本数N变化时,样本内误差和样本外误差的变化情况.在大小为N的数据集D上学习之后,可以得到依赖于D的样本误差和样本外误差.就像之前在偏差-方差中介绍的一样,对大小为N的所有可能数据集D求期望之后, $E_D[ E_{in}[ g^{(D)}]]$ 和 $E_D[ E_{out}[ g^{(D)}]]$ 是关于N的函数.比如一个简单模型和复杂模型的学习曲线如下:

可以看出,对于简单模型来说,收敛速度更快,但是最终表现比复杂模型要差.对于两个模型来说,样本外误差都随着N的增大而减小;样本内误差随着N增加而增大. 用VC维分析和偏差-方差分析,结果如何呢?

在VC维分析中, $E_{out}$ 是 $E_{in}$ 和泛化边界模型复杂度惩罚 $\Omega$ 之和.在偏差-方差分析中, $E_{out}$ 被分解为偏差和方差之和.
随着样本点增多,泛化误差和方差都减小.学习曲线可表明了关于 $E_{in}$ 的一个重要特性.随着N的增加,为了逼近f, $E_{in}$ 接近于学习模型的最小误差.当N很小时, $E_{in}$ 与"应该的最小误差"很远,主要是因为对小数据来说,学习难度更小.

你可能感兴趣的:(ML)

微信小程序案例 - 本地生活（首页）
一、前言随着微信小程序生态的不断壮大，越来越多的生活服务类App开始以小程序的形式落地。本篇文章将以一个典型的“本地生活”类小程序为例，详细讲解其首页页面的开发流程和实现思路。我们将从零开始构建一个具有如下功能模块的首页：✅轮播图广告位✅分类导航图标区域✅热门推荐商家列表✅底部TabBar导航栏并通过WXML、WXSS和JS的结合使用，带你完成整个页面的搭建与数据渲染。二、项目结构说明目录结构示意
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
web前端期末大作业实例 (1500套) 集合
文章目录web前端期末大作业(1500套)集合一、网页介绍二、网页集合表白网页125套(集合)Echarts大屏数据展示150套(集合)一、基于HTML+Echarts技术制作二、基于VUE+Echarts技术制作更多源码web前端期末大作业(1500套)集合临近期末，大一新生的各种考试和专业结课作业纷至沓来。web实训大作业、网页期末作业、web课程与设计、网页设计等，简直让人头大。你还在为网页
嵌入式学习-PyTorch（8）-day24 LGGGGGQ 学习 pytorch 深度学习
torch.optim优化器torch.optim是PyTorch中用于优化神经网络参数的模块，里面实现了一系列常用的优化算法，比如SGD、Adam、RMSprop等，主要负责根据梯度更新模型的参数。️核心组成1.常用优化器优化器作用典型参数torch.optim.SGD标准随机梯度下降，支持momentumlr,momentum,weight_decaytorch.optim.Adam自适应学习
11.Django中常用过滤器孤寒者 Django框架从入门到实战 Python全栈系列教程过滤器 python django 自动转义
目录：每篇前言：（1）Django模板变量过滤器详解1.过滤器的作用与特点2.基本语法3.链式调用4.带参数的过滤器5.注意事项6.总结（2）Django中实战使用——常用的过滤器：①项目目录下的views.py文件：②项目目录下templates模板文件夹下的模板文件index.html：③效果展示：date和time过滤器格式：拓展——简介自动转义：每篇前言：作者介绍：【孤寒者】—CSDN全栈
vue2 面试题及详细答案150道（121 - 130）
《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs，nodejs，mangoDB，MySQL，Linux…。前后端面试题-专栏总目录文章目录一、本文面试题目录121.Vue2中如何实现组件的动态样式绑定？122.Vue2中如何处理跨域请求
python 安装PyV8 和 lxml
近来在玩python爬虫，需要使用PyV8模块和lxml模块。但是执行pipinstallxx或者easy_installxx指令都会提示一些错误。这些错误有些是提示pip版本过低或者缺少vc++9.0环境，再或者一些头文件无法引用等等。我也懒得找错误解决方法。就直接下载Pyv8模块的安装包和lxml的安装包。Pyv8的安装包链接：1.针对win32+python2.7的安装包PyV8-1.0-p
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
如何用css画三角形&太极阿小经
一、如何用css画一个三角形搜索学习资源：Google>>csstricksshape>>画一个如下图这样的三角形三角形htmltrianglecss1.先设置div元素，为它上下边界设置不同颜色，方便改动2.使其高度、宽度为03.使其上边界值为0（蓝色部分）4.使绿色和红色区域变成透明色就可以得到我们要的三角形了。5.简化代码二、如何用css画一个太极(带animation动效)静态效果图用到伪
wap页面和html5,WAP网站、3G网站、html5触屏版有什么区别？
目前手机上的网站主要就分为WAP格式和3G格式，从脚本语言来讲，我们通常喜欢说用WML开发的网站就是WAP网站，用XHTML开发的网上3G网站。WML是当初专门为2.5G时代开发的一个脚本，他的功能挺简单的，页面形式呢主要是文字居多，因为那个时候的网速带宽还有机型的限制，所以WAP网站不能用CSS，字体颜色也只有普通文字的黑色和链接文字的蓝色，至于页面背景什么的是不能设置的。3G网站，也就是我们所
html5这什么意思,html5是什么意思？html5和html的区别介绍 wiles super html5这什么意思
一、HTML5是什么？HTML5是HyperTextMarkupLanguage5的缩写，HTML5是超文本标记语言的最新版本，也就是描述网页的代码，html5实际上是三种代码形式，首先是HTML提供结构，其次是层叠样式表(CSS)负责网站的样式和布局，最后是JavaScript是给网站添加动态功能。二、html5和html的区别1、定义上区别HTML5是应用超文本标记语言(HTML)的第五次修改
HTML和HTML5的区别半生凉忆 html html5
HTML和HTML5的区别什么是HTML？HTML全称为超文本标记语言(HyperTextMarkupLanguage)，它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。什么是HTML5?HTML5是HTML的第五个版本，HTML5已经远远超越了标记语言的范畴，它的设计目的是在移动设备上支持多媒体，和HTML比起来，深度和广度上都做了进一步
如何在HTML5页面中嵌入视频
在HTML5中嵌入视频主要使用标签，这是一种简单且标准的方式。以下是详细步骤和示例：基础实现视频嵌入示例您的浏览器不支持HTML5视频标签。核心属性说明controls添加播放控件（播放/暂停、进度条、音量等）width和height设置播放器尺寸（单位：像素）标签提供多个视频格式源以提高兼容性（浏览器会选择第一个支持的格式）：MP4(H.264)-兼容性最好WebM-开源格式，Chrome/Fi
Python爬虫实战：高效提取与解析JSON格式数据 Python爬虫项目 python 爬虫宽度优先数据库 json 深度优先开发语言
1.JSON数据爬取概述在当今互联网时代，JSON(JavaScriptObjectNotation)已成为最流行的数据交换格式之一。相比传统的HTML页面，JSON格式数据具有结构清晰、体积小、解析方便等优势，使得它成为API接口的首选数据格式。1.1为什么选择JSON数据爬取数据结构化：JSON数据本身就是结构化的，不需要像HTML那样进行复杂的解析传输高效：JSON通常比HTML体积小，传输
时序数据库选型避坑全攻略：IoTDB性能与成本双杀的秘密！ LCG元数据库时序数据库 iotdb java
文章目录一、架构设计深度解析1.1IoTDB架构图谱1.2核心流程对比二、企业级实战代码2.1Python数据写入示例2.2TypeScript客户端实现2.3集群配置YAML三、性能对比分析四、生产部署方案4.1安全加固配置4.2安全策略实施五、技术前瞻分析5.1云原生演进路径5.2新型存储引擎预测六、技术图谱附录一、架构设计深度解析1.1IoTDB架构图谱数据写入协议适配层内存表管理持久化引擎
大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案 LCG元系统服务架构负载均衡网络运维
目录一、系统架构设计与核心流程1.1原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五、生产级部署方案5.1Kubernetes部署配置（YAML）5.2安全审计配置六、技术前瞻与演进附录：完整技术图谱一、系统架构设计与核心流程1.1原创
唾液RNA提取注意事项清风拂面vv
产品特点◎提取RNA纯度高，无抑制剂，A260/A280为1.8-2.0；◎产率高，同样的样本量提取的RNA更多；◎可用于唾液样本中RNA的提取，提取后的RNA可用于核酸检测使用；◎可用于中量（0.5-1.5mL）唾液样本中RNA的提取；◎不含苯酚和氯仿等有毒溶剂，安全无毒。产品介绍BIOGRNASalivaKit是常州百代生物科技有限公司研制的专门用于提取中量（0.5-1.5mL）唾液的RNA的
Web开发 02 im_AMBER 前端学习
今天梳理出的HTML+CSS核心知识点，涵盖基础结构、布局、样式优化等实用技巧：总结1一、HTML核心知识1.基础结构文档声明：定义文档为HTML5标准。基本标签：：根元素，包裹整个页面。：元数据（标题、样式、脚本等），不显示在页面。：设置网页标题（浏览器标签显示）。：页面内容容器，所有可见内容写在这里。2.常用标签文本与标题：~：标题标签，自动加粗且有默认层级样式。：段落标签，默认有上下边距。图
关于字符编辑器vi、vim版本的安装过程及其常用命令： DIY机器人工房编辑器 vim linux 嵌入式硬件 DIY机器人工房 stm32 单片机
1.编辑器1.1图形编辑器平时常见的编辑器都是图形编辑器，比如记事本、notepad、office、wps等，图形编辑器的意思就是这些编辑器带有图形界面，有菜单选项。比如最简单的Windows的记事本：记事本当然，编程时不可能使用记事本来写代码，常用的专业编程IDE有vsCode、qtCreator等，常用的专业编辑器有sumlime、notepad++、vim等，它们各有所长。其中，在嵌入式开发
Docker-Compose配置文件docker-compose.yml详解高压锅_1220 docker docker docker-compose 容器配置文件容器
一份标准的docker-compose.yml文件应该包含version、services、networks三大部分，其中最关键的就是services和networks两个部分。Compose和Docker兼容性：Compose文件格式有3个版本,分别为1,2.x和3.x目前主流的为3.x其支持docker1.13.0及其以上的版本#目前主流的为3.x其支持docker1.13.0及其以上的版本,
binwalk 白天的我最菜错题本开发语言
windows使用这个命令时候发现要shift一直按住,右击打开cmd管理员运行才行pythonsetup.pyinstall否则没有作用自己安装python目录的Scripts文件夹里,参考如下https://www.cnblogs.com/0yst3r-2046/p/12218770.html
AJAX概述出门撞大运 ajax 前端
在现代网页开发中，我们早已习惯了无需刷新页面就能获取新数据的流畅体验——浏览电商网站时的实时库存更新、社交平台的动态加载内容、表单提交后的即时验证反馈……这些都离不开一项核心技术——AJAX。今天，我们就来深入探索AJAX的奥秘，带你全面掌握这门改变网页交互方式的关键技术。一、什么是AJAX？AJAX，全称异步JavaScript和XML（AsynchronousJavaScriptandXML）
【Oracle】删除 Oracle 19c 的监听器和数据库实例同时保留数据库软件瑞琪姐大数据模块数据库 oracle
要删除Oracle19c的监听器和数据库实例，同时保留数据库软件，请按以下步骤操作：1.停止监听器lsnrctlstop2.删除监听器配置手动删除配置文件：cd$ORACLE_HOME/network/adminrmlistener.orasqlnet.oratnsnames.ora#删除网络配置文件或使用netca工具：netca选择“Listenerconfiguration”→“Delete
Python 并发调试工具（py-spy、GDB、pyperf）解析赛博社畜联盟 python 开发语言
```htmlPython并发调试工具（py-spy、GDB、pyperf）解析Python并发调试工具（py-spy、GDB、pyperf）解析在现代软件开发中，Python以其简洁的语法和强大的库支持，成为了许多开发者首选的语言。然而，随着程序复杂度的增加，尤其是涉及并发编程时，调试和性能优化变得尤为重要。本文将介绍三个常用的Python并发调试工具：py-spy、GDB和pyperf，并深入
Python 依赖管理的新动向：pip、Poetry 和 Conda 谁是未来的标准？
```htmlPython依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？Python依赖管理的新动向：pip、Poetry和Conda谁是未来的标准？在Python生态系统中，依赖管理是一个至关重要的环节。无论是小型脚本还是大型企业级项目，依赖管理的好坏直接影响到项目的开发效率和稳定性。近年来，随着Python社区的快速发展，依赖管理工具也经历了显著的变化。本文将探讨三种主流的
深入理解XML与SOAP：构建面向服务的架构微尘-黄含驰
本文还有配套的精品资源，点击获取简介：本文详细讲解了XML和SOAP的基础知识，以及它们在实现面向服务的架构（SOA）中的关键作用。XML用于结构化数据描述和处理，而SOAP是一种基于XML的协议，用于Web上的数据交换。SOAP消息由Header、Body和Envelope组成，通过HTTP或其他传输协议提供可靠通信。SOA利用独立、可重用的服务和标准化接口，SOAP是实现这一目标的关键技术之一
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
Qml动态语言切换 zhengtianzuo
此方法需要在Qt5.10或更高版本实现,在Qt5.10或更高版本实现,在Qt5.10或更高版本实现重要的事情说三遍首先在工程文件.pro中加入TRANSLATIONS=zh_CN.tsen_US.ts两个翻译文件,支持中英文两种语言切换在工程目录下cmd执行lupdatemain.qml-tszh_CN.tslupdatemain.qml-tsen_US.ts执行完后在代码目录里就可以看到生成了z
解决nginx无法显示图片的问题刘晓倩
在nginx配置文件里加上这句location~.*\.(jpg|jepg|gif|css|png|ico|html)?${root/Users/liuxq/Sites;expires30d;break;}重新启动后，就ok啦。
mpiigaze的安装过程一匆匆整棹还 python
mpiigaze链接mpiigaze应该不是作者本人写的，而是社区工作者的杰作，对原论文Appearance-BasedGazeEstimationintheWild的代码进行的一些复现1.创建conda环境2.问题Buildingwheelsforcollectedpackages:dlibBuildingwheelfordlib(pyproject.toml)...errorerror:sub
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite