一入材料深似海

机器学习入门-西瓜书总结笔记第十二章

西瓜书第十二章-计算学习理论

一、基础知识
二、PAC学习
三、有限假设空间
- 1.可分情形
- 2.不可分情形
- 四、VC维
五、Rademacher复杂度
六、稳定性

一、基础知识

计算学习理论（computational learning theory） 研究的是关于通过“计算”来进行“学习”的理论，即关于机器学习的理论基础，其目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。
给定样例集 $\{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_m,y_m),\},\pmb x_i\in \mathcal X$ ，本章主要讨论二分类问题，若无特别说明， $y_i \in \mathcal Y = \{-1,+1\}$ 。假定 $\mathcal X$ 中的所有样本服从一个隐含未知的分布 $\mathcal D$ ，D中所有样本都是独立地从这个分布上采样而得，即独立同分布（independent and identically distributed，简称 $i . i . d$ ）样本。
令h为从 $\mathcal X$ 到 $\mathcal Y$ 的一个映射，其泛化误差为
$E(h;\mathcal D) = P_{x \sim \mathcal D}(h(\pmb x) \ne )$
h在D上的经验误差为
$\hat E(h;D) = \frac{1}{m}\sum_{i=1}^m \Pi(h(\pmb x_i)\ne y_i)$
由于D是 $\mathcal D$ 的独立同分布采样，因此h的经验误差的期望等于其泛化误差。将 $E(h;\mathcal D)$ 和 $\hat E(h;D)$ 分别简记为 $E (h)$ 和 $\hat E(h)$ 。令 $\epsilon$ 为 $E (h)$ 的上限，即 $E(h)\le\epsilon$ ；通常用 $\epsilon$ 表示预先设定的学得模型所应满足的误差要求，亦称“误差参数”
本章后面部分将研究经验误差与泛化误差之间的逼近程度。若h在数据集D上的经验误差为0，则称h与D一致，否则称为其与D不一致。对任意两个映射 $h_1,h_2 \in \mathcal X\rightarrow\mathcal Y$ ，可通过其“不合”（disagreement）来度量它们之间的差别：
$d(h_1,h_2) = P_{x\sim \mathcal D}(h_1(\pmb x)\ne h_2(\pmb x))$
会用到几个常用不等式：
Jensen不等式：对任意凸函数 $f (x)$ ，有
$f(\mathbb E(x))\le \mathbb E(f(x))$
Hoeffding不等式：若 $x_1,x_2,\cdots,x_m$ 为m个独立随机变量，且满足 $0\le x_i\le 1$ ，则对任意 $\epsilon >0$ ，有
$\begin{aligned} & P\Bigg(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb E(x_i)\ge\epsilon\Bigg)\le \operatorname{exp}(-2m\epsilon^2),\\ & P\Bigg(\Bigg|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb E(x_i)\Bigg|\ge\epsilon\Bigg)\le 2\operatorname{exp}(-2m\epsilon^2),\\ \end{aligned}$
McDiarmid不等式：若 $x_1,x_2,\cdots,x_m$ 为m个独立随机变量，且满足 $0\le i\le m$ ，函数 $f$ 满足
$\underset{x_1,x_2,\cdots,x_m,x_i'}{\operatorname{sup}}|f(x_1,x_2,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i',x_{i+1},\cdots,x_{m})|\le c_i,$
则对任意 $\epsilon>0$ ，有
$\begin{aligned} &P(f(x_1,\cdots,x_m) - \mathbb E(f(x_1,\cdots,x_m))\ge \epsilon)\le \operatorname{exp}\bigg(\frac{-2\epsilon^2}{\sum_i c_i^2}\bigg),\\ &P(|f(x_1,\cdots,x_m) - \mathbb E(f(x_1,\cdots,x_m))|\ge \epsilon)\le 2\operatorname{exp}\bigg(\frac{-2\epsilon^2}{\sum_i c_i^2}\bigg),\\ \end{aligned}$

二、PAC学习

计算学习理论中最基本的是 概率近似正确（Probably Approximately Correct，简称PAC） 学习理论。

令c表示 “概念”（concept），这是从样本空间 $\mathcal X$ 到标记空间 $\mathcal y$ 的映射，它决定示例 $\pmb x$ 的真实标记y，若对任何样例 $(\pmb x,y)$ 有 $c(\pmb x) = y$ 成立，则称 $c$ 为目标概念；所有希望学得的目标概念所构成的集合称为 “概念类”（concept class），用符号 $\mathcal C$ 表示。
给定学习算法 $\mathfrak{L}$ ，它所考虑的所有可能概念的集合称为 “假设空间”（hypothesis space），用符号 $\mathcal H$ 表示。由于学习算法事先并不知道概念类的真实存在，因此 $\mathcal H$ 和 $\mathcal C$ 通常是不同的，学习算法会自认为可能的目标概念类集中起来构成 $\mathcal H$ ，对 $h\in \mathcal H$ ，由于并不确定它是否真实目标概念，因此称为 “假设”（hypothesis） 。
若目标概念 $c\in \mathcal H$ ，则 $\mathcal H$ 中存在假设能将所有示例按与真实标记一致的方式完全分开，称该问题对学习算法 $\mathfrak{L}$ 是 “可分的”（separable），亦称 “一致的”（consistent）；若 $c\notin \mathcal H$ ，则 $\mathcal H$ 中不存在任何假设能将所有示例完全正确分开，称该问题对学习算法 $\mathfrak{L}$ 是 “不可分的”（non-separable），亦称 “不一致的”（non-consistent）
给定训练集D，我们希望基于学习算法 $\mathfrak{L}$ 学得的模型所对应的假设h尽可能接近目标概念c。由于机器学习过程收到很多因素的制约，例如获得的训练集D往往仅包含有限数量的样例，通常会存在一些在D上“等效”的假设，学习算法对它们无法区别；再如，从分布 $\mathcal D$ 采样得到D的过程有一定偶然性，可以想象，即便对同样大小的不同训练集，学得结果也可能有所不同。因此，是希望以比较大的把握学得比较好的模型，也就是说，以较大的概率学得误差满足预设上限的模型；这就是“概率”“近似正确”的含义。形式化地说，令 $\delta$ 表示置信度，可定义：

PAC辨别（PAC Identify） ：对 $0<\epsilon,\delta<1$ ，所有 $c\in \mathcal C$ 和分布 $\mathcal D$ ，若存在学习算法 $\mathfrak{L}$ ，其输出假设 $h\in \mathcal H$ 满足
$P(E(h)\le \epsilon) \ge 1-\delta$
则称学习算法 $\mathfrak{L}$ 能从假设空间 $\mathcal H$ 中PAC辨识概念类 $\mathcal C$ .

这样的学习算法 $\mathfrak{L}$ 能以较大的概率（至少 $1-\delta$ ）学得目标概念c的近似（误差最多为 $\epsilon$ ）。在此基础上可定义

PAC可学习（PAC Learning） ：令m表示从分布 $\mathcal D$ 中独立同分布采样得到的样例数目， $0<\epsilon,\delta<1$ ，对所有分布 $\mathcal D$ ，若存在学习算法 $\mathfrak{L}$ 和多项式函数 $poly(\cdot,\cdot,\cdot,\cdot)$ ，使得对于任何 $m\ge poly(1/\epsilon,1/\delta,size(\pmb x),size(c))$ ， $\mathfrak{L}$ 能从假设空间 $\mathcal H$ 中PAC辨识概念类 $\mathcal C$ ，则称概念类 $\mathcal C$ 对假设空间 $\mathcal H$ 而言PAC可学习的，有时也简称概念类 $\mathcal C$ 是PAC可学习的

对计算机算法来说，必须要考虑时间复杂度，于是：

PAC学习算法（PAC Learning Algorithm）：若学习算法 $\mathfrak{L}$ 使得概念类 $\mathcal C$ 为PAC可学习的，且 $\mathfrak{L}$ 运行时间也是多项式函数 $poly(1/\epsilon,1/\delta,size(\pmb x),size(c))$ ，则称概念类 $\mathcal C$ 是 高效PAC可学习（efficiently PAC learnable） 的，称 $\mathfrak{L}$ 为概念类 $\mathcal C$ 的PAC学习算法

假定学习算法 $\mathfrak{L}$ 处理每个样本的时间为常数，则 $\mathfrak{L}$ 的时间复杂度等价于样本复杂度。于是，对算法时间复杂度的关心就转化为对样本复杂度的关心。

样本复杂度（Sample Complexity） ：满足PAC学习算法 $\mathfrak{L}$ 所需的 $m\ge poly(1/\epsilon,1/\delta,size(\pmb x),size(c))$ 中最小的m，称为学习算法 $\mathfrak{L}$ 的样本复杂度。

显然，PAC学习给出了一个抽象地刻画机器学习能力的框架，基于这个框架能对很多重要问题进行探讨，例如研究某任务在什么样的条件下可学得较好的模型？某算法在什么样的条件下可进行有效的学习？需多少训练样例才能获得较好的模型？
PAC学习中一个关键因素是假设空间 $\mathcal H$ 的复杂度。 $\mathcal H$ 包含了学习算法 $\mathfrak{L}$ 所有可能输出的假设，若在PAC学习中假设空间与概念类完全相同，即 $\mathcal H = \mathcal C$ ，这称为“恰PAC学习”（Properly PAC learnable）；直观地看，这意味着学习算法的能力与学习任务“恰好匹配”。然而，这种让所有候选假设都是来自概念类的要求看似合理，但却并不实际，因为在现实应用中对概念类 $\mathcal C$ 通常一无所知，更别说获得一个假设空间与概念类恰好相同的学习算法。显然更重的是研究假设空间与概念类不同的情形，即 $\mathcal H\ne \mathcal C$ 。一般而言 $\mathcal H$ 越大，其包含任意目标概念的可能性越大，但从中找到某个具体概念的难度越大。 $|\mathcal H|$ 有限时，称 $\mathcal H$ 为“有限假设空间”，否则称为“无限假设空间”

三、有限假设空间

1.可分情形

可分情形意味着目标概念c属于假设空间 $\mathcal H$ ，即 $c\in \mathcal H$ 。给定包含m个样例的训练集D，如何找出满足误差参数的假设呢？
容易想到一种简单的学习策略：既然D中样例标记都是由目标概念c赋予的，并且c存在于假设空间 $\mathcal H$ 中，那么，任何在训练集D上出现标记错误的假设肯定不是目标概念c。于是，只需要保留与D一致的假设，剔除与D不一致的假设即可。若训练集D足够大，则可不断借助D中样例剔除不一致的假设，直至 $\mathcal H$ 中仅剩下一个假设为止，这个假设就是目标概念c。通常情形下，由于训练集规模有限，假设空间 $\mathcal H$ 中可能存在不止一个与D一致的“等效”假设，对这些等效假设，无法根据D来对它们的优劣做进一步的区分。
到底需要多少样例才能学得目标概念c的有效近似呢？对PAC学习来说，只要训练集D的规模能使学习算法 $\mathfrak{L}$ 以概率 $1-\delta$ 找到目标假设的 $\epsilon$ 近似即可。
先估计泛化误差大于 $\epsilon$ 但在训练集上仍表现完美的假设出现的概率。假定h的泛化误差大于 $\epsilon$ ，对分布 $\mathcal D$ 上随机采样而得的任何样例 $(\pmb x,y)$ ，有
$\begin{aligned} P(h(\pmb x) = y) &= 1-P(h(\pmb x)\ne y)\\ & = 1- E(h)\\ &<1-\epsilon \end{aligned}$
由于D包含m个从 $\mathcal D$ 独立同分布采样而得的样例，因此，h与D表现一致的概率为
$\begin{aligned} P((h(\pmb x_1) = y_1)\wedge\cdots\wedge(h(\pmb x_m) = y_m))&=(1-P(h(\pmb x)\ne y))^m\\ &<(1-\epsilon)^m \end{aligned}$
事先并不知道学习算法 $\mathfrak{L}$ 会输出 $\mathcal H$ 中的哪个假设，但仅需保证泛化误差大于 $\epsilon$ ，且在训练集上表现完美的所有假设出现概率之和不大于 $\delta$ 即可：
$\begin{aligned} P(h\in \mathcal H:E(h) > \epsilon \wedge \hat E(h) = 0) &< |\mathcal H| (1-\epsilon)^m\\ &<|\mathcal H|e^{-m\epsilon} \end{aligned}$
令上式不大于 $\delta$ ，即
$|\mathcal H|e^{-m\epsilon} \le \delta$
可得
$m\ge \frac{1}{m}(\operatorname{ln}|\mathcal H|+ \operatorname{ln}\frac{1}{\delta})$
由此可知，有限假设空间 $\mathcal H$ 都是PAC可学习的，所需的样例数目如上式所示，输出假设h的泛化误差随样例数目的增多而收敛到0，收敛速度为 $O(\frac{1}{m})$

2.不可分情形

对较为困难的学习问题，目标概念c往往不存在于假设空间 $\mathcal H$ 中。假定对于任何 $h\in \mathcal H, \hat E(h)\ne 0$ ，也就是说， $\mathcal H$ 中的任意一个假设都会在训练集上出现或多或少的错误。由Hoffding不等式易知：

若训练集D中包含m个从分布 $\mathcal D$ 上独立同分布采样而得的样例， $0<\epsilon<1$ ，则对任意 $h\in \mathcal H$ ，有
$\begin{aligned} &P(\hat E(h)-E(h)\ge\epsilon)\le \operatorname{exp}(-2m\epsilon^2)\\ &P(E(h)-\hat E(h)\ge\epsilon)\le \operatorname{exp}(-2m\epsilon^2)\\ &P(|E(h)-\hat E(h)\ge\epsilon|)\le 2\operatorname{exp}(-2m\epsilon^2)\\ \end{aligned}$
若训练集D包含m个从分布 $\mathcal D$ 上独立同分布采样而得的样例， $0<\epsilon<1$ ，则对任意 $h\in \mathcal H$ ，下式至少 $1-\delta$ 的概率成立。
$\hat E(h) - \sqrt{\frac{\operatorname{ln}(2/\delta)}{2m}}\le E(h)\le \hat E(h) + \sqrt{\frac{\operatorname{ln}(2/\delta)}{2m}}$

上述推论表明，样例数目m较大时，h的经验误差是其泛化误差很好的近似。

若 $\mathcal H$ 为有限假设空间， $0<\delta<1$ ，则对任意 $h\in \mathcal H$ ，有
$P\bigg(|E(h)-\hat E(h)|\le \sqrt{\frac{\operatorname{ln}|\mathcal H|+ \operatorname{ln}(2/\delta)}{2m}}\bigg)\ge 1-\delta$

推导略

显然，当 $c\ne \mathcal H$ 时，学习算法 $\mathfrak{L}$ 无法学得目标概念c的 $\epsilon$ 近似。但是，当假设空间 $\mathcal H$ 给定时，其中必存在一个泛化误差最小的假设，找出此假设的 $\epsilon$ 近似也不失为一个较好的目标。 $\mathcal H$ 中泛化误差最小的假设是 $\operatorname{arg \ min}_{h\in \mathcal H}E(h)$ ，于是，以此为目标可将PAC学习推广到 $c\notin \mathcal H$ 的情形，这称为“不可知学习”（agnostic learning）。相应的，我们有

不可知PAC可学习（agnostic PAC learnable） 令m表示从分布 $\mathcal D$ 中独立同分布采样得到的样例数目， $0<\epsilon,\delta<1$ ，对所有分布 $\mathcal D$ ，若存在学习算法 $\mathfrak{L}$ 和多项式函数 $poly(\cdot,\cdot,\cdot,\cdot)$ ，使得对于任何 $m\ge poly(1/\epsilon,1/\delta,size(\pmb x),size(c))$ ， $\mathfrak{L}$ 能从假设空间 $\mathcal H$ 中输出满足下式的假设h：
$P(E(h)-\underset{h'\in \mathcal H}{\operatorname{min}}E(h')\le \epsilon)\ge 1-\delta$
则称假设空间 $\mathcal H$ 是不可知PAC可学习的。
与PAC学习类似，若学习算法 $\mathfrak{L}$ 的运行时间也是多项式函数 $poly(1/\epsilon,1/\delta,size(\pmb x),size(c))$ ，则称假设空间 $\mathcal H$ 是高效不可知PAC可学习的，学习算法 $\mathfrak{L}$ 则称为假设空间 $\mathcal H$ 的不可知PAC学习算法，满足上述要求的最小m称为学习算法 $\mathfrak{L}$ 的样本复杂度。

四、VC维

现实学习任务所面临的通常是无限假设空间，例如实数域中的所有区间、 $\mathbb R^d$ 空间中的所有线性超平面。欲对此情形的可学习性进行研究，需度量假设空间的复杂度。最常见的办法是考虑假设空间的“VC维”（Vapnik-Chervonenkis dimension）
介绍VC维之前，先引进几个概念：增长函数（growth function）、对分（dichotomy）和打散（shattering）
给定假设空间 $\mathcal H$ 和示例集 $D=\{\pmb x_1,\pmb x_2,\cdots,\pmb x_m\}$ ， $\mathcal H$ 中每个假设h都能对D中示例赋予标记，标记结果可表示为
$h|_D = \{(h(\pmb x_1),h(\pmb x_2),\cdots,h(\pmb x_m))\}$
随着m的增大， $\mathcal H$ 中所有假设对D中示例所赋予标记的可能结果数也会增大。

对所有 $m\in \mathbb N$ ，假设空间 $\mathcal H$ 的增长函数 $\Pi_{\mathcal H}(m)$ 为
$\Pi_{\mathcal H}(m)= \underset{\{x_1,\cdots,x_m\}\subseteq \mathcal X}{\operatorname{max}}|\{(h(\pmb x_1),h(\pmb x_2),\cdots,h(\pmb x_m))|h\in \mathcal H\}|$

增长函数 $\Pi_{\mathcal H}(m)$ 表示假设空间 $\mathcal H$ 对m个示例所能赋予标记的最大可能结果数。显然， $\mathcal H$ 对示例所能赋予标记的可能结果数越大， $\mathcal H$ 的表示能力越强，对学习任务的适应能力也越强。因此，增长函数描述了假设空间 $\mathcal H$ 表示能力，由此反映出假设空间的复杂度。可利用增长函数来估计经验误差与泛化误差之间的关系：

对假设空间 $\mathcal H,m\in \mathbb N,0<\epsilon<1$ 和任意 $h\in \mathcal H$ 有
$P(|E(h)-\hat E(h)|>\epsilon)\le 4\Pi_{\mathcal H}(2m)\operatorname{exp}(-\frac{m\epsilon^2}{8})$
假设空间 $\mathcal H$ 中不同的假设对于D中示例赋予标记的结果可能相同，也可能不同；尽管 $\mathcal H$ 可能包含无穷多个假设，但其对D中示例赋予标记的可能结果数是有限的：对m个示例，最多有 $2^m$ 个可能结果。对二分类问题来说， $\mathcal H$ 中假设对D中示例赋予标记的每种可能结果称为D的一种“对分”。若假设空间 $\mathcal H$ 能实现示例集D上的所有对分，即 $\Pi_{\mathcal H}(m)=2^m$ ，则称示例集D能被假设空间 $\mathcal H$ “打散”。
假设空间 $\mathcal H$ 的VC维是能被 $\mathcal H$ 打散的最大示例集的大小，即
$VC(\mathcal H) = \operatorname{max}\{m:\Pi_{\mathcal H}(m)=2^m\}$
$VC(\mathcal H) =d$ 表明存在大小为d的示例集能被假设空间 $\mathcal H$ 打散。注意：并不意味着所有大小为d的示例集都能被假设空间 $\mathcal H$ 打散。VC维的定义与数据分布 $\mathcal D$ 无关。因此，在数据分布未知时仍能计算出假设空间 $\mathcal H$ 的VC维。
通常这样来计算 $\mathcal H$ 的VC维：若存在大小为d的示例集能被 $\mathcal H$ 打散，但不存在任何大小为d+1的示例集能被 $\mathcal H$ 打散，则 $\mathcal H$ 的VC维是d。

有上述定义可知，VC维与增长函数有密切联系，下式给出了二者之间的定量关系。
假定空间 $\mathcal H$ 的VC维为d，则对任意 $m\in \mathbb N$ 有
$\Pi_{\mathcal H}(m)\le \sum_{i=0}^d\bigg( \begin{matrix} m\\ i \end{matrix}\bigg)$

证略

从上述可计算出增长函数的上界：若假设空间 $\mathcal H$ 的VC维是d，则对任意整数 $m\ge d$ 有
$\Pi_{\mathcal H}(m) \le (\frac{e\cdot m}{d})^d$

并可得基于VC维的泛化误差界：

若假设空间 $\mathcal H$ 的VC维是d，则对任意 $m>d,0<\delta<1$ 和 $h\in \mathcal H$ 有
$P\Bigg(E(h)- \hat E(h)\le \sqrt{\frac{8d\operatorname{ln}\frac{2em}{d}+8\operatorname{ln}\frac{4}{\delta}}{m}}\Bigg)\ge 1-\delta$

泛化误差界只与样例数目m有关，收敛速率为 $O(\frac{1}{\sqrt m})$ ，与数据分布 $\mathcal D$ 和样例集D无关。因此，基于VC维的泛化误差界是分布无关（distribution-free）、数据独立（data-independent）的
令h表示学习算法 $\mathfrak{L}$ 输出的假设，若h满足
$\hat E(h) = \underset{h'\in \mathcal H}{\operatorname{min}}\hat E(h')$
则称 $\mathfrak{L}$ 满足经验风险最小化（Empirical Risk Minimization，简称ERM）原则的算法。有以下定理：

任何VC维有限的假设空间 $\mathcal H$ 都是（不可知）PAC可学习的

证略

五、Rademacher复杂度

基于VC维的泛化误差界是分布无关、数据独立的，也就是说，对任何数据分布都成立。这使得VC维的可学习性分析结果具有一定的“普适性”；但从另一方面来说，由于没有考虑数据自身，基于VC维得到的泛化误差界通常比较“松”，对那些与学习问题的典型情况相差甚远的较“坏”分布来说尤其如此。
Rademacher复杂度（Rademacher complexity）是另一种刻画假设空间复杂度的途径，与VC维不同的是，它在一定程度上考虑了数据分布。
给定数据集 $\{(\pmb x_1,y_1),(\pmb x_2,y_2),\cdots,(\pmb x_m,y_m)\}$ ，假设h的经验误差为
$\begin{aligned} \hat E(h) &= \frac{1}{m}\sum_{i=1}^m \Pi(h(\pmb x_i)\ne y_i)\\ & = \frac{1}{m}\sum_{i=1}^m \frac{1-y_ih(\pmb x_i)}{2}\\ & = \frac{1}{2} - \frac{1}{2m}\sum_{i=1}^m y_ih(\pmb x_i) \end{aligned}$
其中 $\frac{1}{2m}\sum_{i=1}^m y_ih(\pmb x_i)$ 体现了预测值 $h(\pmb x_i)$ 与真实样本标记 $y_i$ 之间的一致性，若对于所有 $i\in \{1,2,\cdots,m\}$ 都有 $h(\pmb x_i) = y_i$ ，则 $\frac{1}{m}\sum_{i=1}^m y_ih(\pmb x_i)$ 取最大值1。也就是说，经验误差最小的假设是
$\underset{h\in \mathcal H}{\operatorname{arg \ min}}\frac{1}{m}\sum_{i=1}^my_ih(\pmb x_i)$
然而，现实任务中样例的标记有时会收到噪声影响，即对某些样例 $(\pmb x_i,y_i)$ ,其 $y_i$ 或许已受到随机因素的影响，不再是 $\pmb x_i$ 的真实标记。在此情形下，选择假设空间 $\mathcal H$ 中在训练集上表现最好的假设，有时还不如选择 $\mathcal H$ 中事先已考虑了随机噪声影响的假设。
考虑随机变量 $\sigma_i$ ，它以0.5的概率取值-1，0.5的概率取值+1，称为Rademacher随机变量。基于 $\sigma_i$ 可将上式重写为
$\underset{h\in \mathcal H}{\operatorname{sup}}\frac{1}{m}\sum_{i=1}^m\sigma_i h(\pmb x_i)$
考虑 $\mathcal H$ 中的所有假设，对上式求期望可得
$\mathbb E_{\sigma}\bigg[\underset{h\in \mathcal H}{\operatorname{sup}}\frac{1}{m}\sum_{i=1}^m\sigma_i h(\pmb x_i)\bigg]$
其中 $\pmb \sigma = \{\sigma_1,\sigma_2,\cdots,\sigma_m\}$ .上式的取值范围是[0,1]，它体现了假设空间 $\mathcal H$ 的表达能力，例如，当 $|\mathcal H| = 1$ 时， $\mathcal H$ 中仅有一个假设，这时可计算出上式得值为0；当 $|\mathcal H| = 2^m$ 且 $\mathcal H$ 能打散D时，对任意 $\pmb \sigma$ 总有一个假设使得 $h(\pmb x_i) = \sigma_i(i = 1,2,\cdots,m)$ ,这时可计算出上式得值为1.
考虑实值函数空间 $\mathcal F:\mathcal Z \rightarrow \mathbb R$ ,令 $\{z_1,z_2,\cdots,z_m\}$ ，其中 $z_i \in \mathcal Z$ ，将上式中的 $\mathcal X$ 和 $\mathcal H$ 替换为 $\mathcal Z$ 和 $\mathcal F$ 可得

函数空间 $\mathcal F$ 关于 $\mathcal Z$ 的经验Rademacher复杂度
$\hat R_{\mathcal Z}(\mathcal F) = \mathbb E_{\sigma}\bigg[\underset{f\in \mathcal F}{\operatorname{sup}}\frac{1}{m}\sum_{i=1}^m\sigma_i h(\pmb z_i)\bigg]$

经验Rademacher复杂度衡量了函数空间 $\mathcal F$ 与随机噪声在集合 $Z$ 中的相关性。通常希望了解函数空间 $\mathcal F$ 在 $\mathcal Z$ 上关于分布 $\mathcal D$ 的相关性，因此，对所有从 $\mathcal D$ 独立同分布采样而得的大小为m的集合Z求期望可得

函数空间 $\mathcal F$ 关于 $\mathcal Z$ 上的分布 $\mathcal D$ 的Rademacher复杂度
$R_m(\mathcal F) = \mathbb E_{Z\subseteq \mathcal Z:|Z| = m}\bigg[\hat R_Z(\mathcal F)\bigg]$

基于Rademacher复杂度可得关于函数空间 $\mathcal F$ 的泛化误差界

对实值函数空间 $\mathcal F:\mathcal Z\rightarrow [0,1]$ ，根据分布 $\mathcal D$ 从 $\mathcal Z$ 中独立同分布采样得到示例集 $\{\pmb z_1,\pmb z_2,\cdots,\pmb z_m\},\pmb z_i \in \mathcal Z,0<\delta<1$ ，对任意 $f\in \mathcal F$ ，以至少 $1-\delta$ 的概率有
$\begin{aligned} &\mathbb E[f(z)] \le \frac{1}{m}\sum_{i=1}^mf(z_i) + 2R_m(\mathcal F) + \sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\\ &\mathbb E[f(z)] \le \frac{1}{m}\sum_{i=1}^mf(z_i) + 2\hat R_Z(\mathcal F) + 3\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\\ \end{aligned}$

证略

需注意的是，上述定理中的函数空间 $\mathcal F$ 是区间[0,1]上的实值函数，因此，只适用于回归问题。对二分类问题，我们有下面的定理：

对假设空间 $\mathcal H:\mathcal X\rightarrow \{-1,+1\}$ ，根据分布 $\mathcal D$ 从 $\mathcal X$ 中独立同分布采样得到示例集 $D=\{\pmb x_1,\pmb x_2,\cdots,\pmb x_m\},\pmb x_i \in \mathcal X,0<\delta<1$ ,对任意 $h\in \mathcal H$ ，以至少 $1-\delta$ 的概率有
$\begin{aligned} &\mathbb E[h] \le \hat E(h) + R_m(\mathcal H)+ \sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\\ &\mathbb E[h] \le \hat E(h) + R_D(\mathcal H)+ 3\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\\ \end{aligned}$

上述定理给出了基于Rademacher复杂度的泛化误差界。基于VC维的泛化误差界是分布无关、数据独立的，而基于Rademacher复杂度的泛化误差界与分布 $\mathcal D$ 有关，与数据D有关。换言之，基于Rademacher复杂度的泛化误差界依赖于具体学习问题上的数据分布，有点类似于为该学习问题“量身定制”的，因此它通常比基于VC维的泛化误差界更紧一些。
值得一提的是，关于Rademacher复杂度与增长函数，有如下定理：

假设空间 $\mathcal H$ 的Rademacher复杂度 $R_m(\mathcal H)$ 与增长函数 $\Pi_{\mathcal H}(m)$ 满足
$R_m(\mathcal H)\le \sqrt{\frac{2\operatorname{ln}\Pi_{\mathcal H}(m)}{m}}$
可得
$E(h)\le \hat E(h) + \sqrt{\frac{2d\operatorname{ln}\frac{em}{d}}{m}} + \sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}$
也就是说，从Rademacher复杂度和增长函数能推导出VC维的泛化误差界。

六、稳定性

无论是基于VC维还是Rademacher复杂度来推导泛化误差界，所得到的结果均与具体学习算法无关，对所有学习算法都适用。这使得人们能够脱离具体学习算法的设计来考虑学习问题本身的性质，但在另一方面，若希望获得与算法有关的分析结果，则需另辟蹊径。稳定性（stability） 分析是这方面一个值得关注的方向。
顾名思义，算法的“稳定性”考察的是算法在输入发生变化时，输出是否会随之发生较大变化。学习算法的输入是训练集，因此下面先定义训练集的两种变化。
给定 $\{\pmb z_1 = (\pmb x_1,y_1),\pmb z_2 = (\pmb x_2,y_2),\cdots,\pmb z_m = (\pmb x_m,y_m)\},\pmb x_i \in \mathcal X$ 是来自分布 $\mathcal D$ 的独立同分布示例， $y_i = \{-1,+1\}$ 。对假设空间 $\mathcal H:\mathcal X\rightarrow \{-1,+1\}$ 和学习算法 $\mathfrak{L}$ ，令 $\mathfrak{L}_D\in \mathcal H$ 表示基于训练集D从假设空间 $\mathcal H$ 中学得的假设。考虑D的以下变化：

$D^{/i}$ 表示移出D中第i个样例得到的集合
$D^{/i} = \{\pmb z_1,\pmb z_2,\cdots,\pmb z_{i-1},\pmb z_{i+1},\cdots,\pmb z_m\}$
$D^{i}$ 表示替换D中第i个样例得到的集合
$D^{i} = \{\pmb z_1,\pmb z_2,\cdots,\pmb z_{i-1},\pmb z_{i}',\pmb z_{i+1},\cdots,\pmb z_m\}$
其中 $\pmb z_i' = (\pmb x_i',y_i'),\pmb x_i'$ 服从分布 $\mathcal D$ 并独立于D

损失函数 $\ell(\mathfrak{L}_D(\pmb x),y):\mathcal Y\times \mathcal Y \rightarrow \mathbb R^+$ 刻画了假设 $\mathfrak{L}_D$ 的预测标记 $\mathfrak{L}_D(\pmb x)$ 与真实标记y之间的差距，简记为 $\ell(\mathfrak{L}_D,\pmb z)$ 。下面定义关于假设 $\mathfrak{L}_D$ 的几种损失。

泛化损失
$\mathfrak{L}_D(\pmb x) = \mathbb E_{x\in \mathcal X,z=(x,y)}[\ell(\mathfrak{L}_D,\pmb z)]$
经验损失
$\hat \ell(\mathfrak{L},D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_D,\pmb z_i)$
留一（leave-one-out）损失
$\ell_{loo}(\mathfrak{L},D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{/i}},\pmb z_i)$
下面定义算法的均匀稳定性（uniform stability）
对任何 $\pmb x \in \mathcal X,\pmb z=(\pmb x,y)$ ，若学习算法 $\mathfrak L$ 满足
$|\ell(\mathfrak L_D,\pmb z)-\ell(\mathfrak L_{D^{/i}},\pmb z)|\le \beta,\quad i=1,2,\cdots,m$
则称 $\mathfrak L$ 关于损失函数 $\ell$ 满足 $\beta$ -均匀稳定性

显然，若算法 $\mathfrak L$ 关于损失函数 $\ell$ 满足 $\beta$ -均匀稳定性则有
$\begin{aligned} &|\ell(\mathfrak L_D,\pmb z)-\ell(\mathfrak L_{D^{i}},\pmb z)|\\ \le & |\ell(\mathfrak L_D,\pmb z)-\ell(\mathfrak L_{D^{/i}},\pmb z)| + |\ell(\mathfrak L_{D^i},\pmb z)-\ell(\mathfrak L_{D^{/i}},\pmb z)|\\ \le & 2\beta \end{aligned}$
就是说，移出示例的稳定性包含替换示例的稳定性
若损失函数 $\ell$ 有界，即对所有D和 $\pmb z = (\pmb x,y)$ 有 $0\le\ell(\mathfrak L_D,\pmb z)\le M$ ，则有

给定从分布 $\mathcal D$ 上独立同分布采样得到的大小为m的示例集D，若学习算法 $\mathfrak L$ 满足关于损失函数 $\ell$ 的 $\beta$ -均匀稳定性，且损失函数 $\ell$ 的上界为M， $0<\delta<1$ ，则对任意 $m\ge 1$ ，以至少 $1-\delta$ 的概率有
$\begin{aligned} &\ell(\mathfrak L,D)\le \hat \ell(\mathfrak L,D) + 2\beta + (4m\beta + M)\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\\ &\ell(\mathfrak L,D)\le \ell_{loo}(\mathfrak L,D) + \beta + (4m\beta + M)\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}\\ \end{aligned}$
上述给出了基于稳定性分布推导出的学习算法 $\mathfrak L$ 学得假设的泛化误差界。可看出，经验损失与泛化损失之间差别的收敛率为 $\beta\sqrt{m}$ ；若 $\beta = O(\frac{1}{m})$ ，则可保证收敛率为 $O(\frac{1}{\sqrt{m}})$ 。这与基于VC维和Rademacher复杂度得到的收敛率一致。
需注意，学习算法的稳定性分析所关注的是 $|\hat \ell(\mathfrak L,D)- \ell(\mathfrak L,D)|$ ，而假设空间复杂度分析所关注的是 $\operatorname{sup}_{h\in\mathcal H}|\hat E(h)-E(h)|$ ；也就是说，稳定性分析不必考虑假设空间中所有可能的假设，只需根据算法自身的特性（稳定性）来讨论输出假设 $\mathfrak L$ 的泛化误差界，那么，稳定性与可学习性之间有什么关系呢？
首先，必须假设 $\beta \sqrt{m}\rightarrow 0$ ，这样才能保证稳定的学习算法 $\mathfrak L$ 具有一定的泛化能力，即经验损失收敛于泛化损失，否则可学习性无从谈起。为了便于计算，我们假定 $\beta = \frac{1}{m}$ ，代入可得
$\ell(\mathfrak L,D)\le \hat \ell(\mathfrak L,D) + \frac{2}{m} + (4+M)\sqrt{\frac{\operatorname{ln}(1/\delta)}{2m}}$

对损失函数 $\ell$ ，若学习算法 $\mathfrak L$ 所输出的假设满足经验损失最小化，则称算法 $\mathfrak L$ 满足经验风险最小化（Empirical Risk Minimization）原则，简称算法是ERM的。关于学习算法的稳定性和可学习性，有如下定理：

若学习算法 $\mathfrak L$ 是ERM且稳定的，则假设空间 $\mathcal H$ 可学习。

证略

你可能感兴趣的:(学习笔记,机器学习)

燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
Microsoft VBA Excel VBA学习笔记——双重筛选+复制数值1.0 偷心伊普西隆 VBA学习和实践 microsoft excel
问题场景CountryProductCLASS1CLASS2CLASS3CLASS4CLASS5CLASS6…USApple0.3641416030.8918210610.0591451990.7320110290.0509636560.222464259…USBanana0.2300833330.4027262180.1548836670.2988904860.7802326210.028592
SQL Server的个人学习笔记萌尛喵 sql 学习数据库
1.基础SQLServer是由Microsoft开发和销售的关系数据库管理系统或RDBMS。SQLServer建立于SOL之上，是一种用于关系数据交互的标准编程语言。2.组件SQLServer主要由数据库引擎和SQLOS两个组件组成。①数据库引擎SQLServer的核心组件是数据库引擎。数据库引擎由处理查询的关系引擎和管理数据库文件、页面、索引等的存储组成。数据库引擎也创建并执行数据库对象，如存储
SQLserver数据库学习笔记溪衡学习
小记1：1.newid()我觉得是一个生成唯一键的好方法，不用自增控制主键，可以用这个试试，注意不做处理的话，需要36位。例如：在数据库中直接使用语句selectnewid()2.nolock按我的理解是“不上锁的”，所谓的脏读，大多用的都是这个东西，据说可以提高查询速度。3.go批处理语句，将前面的代码作为一批处理。4.内连接与简单多表在数据量少的时候查询速度差距并不明显。5.删除和更新数据时，
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
SQL学习笔记1
1.数据库1、什么是数据库数据库（DB）即用于存放数据的服务器，如MySQL等软件是数据库管理系统（DBMS），用于管理存放在数据库中的数据，SQL是用于操作DBMS的标准语言。2、数据库的类型数据库分为关系型数据库和非关系型数据库；关系型数据库是指用建立在关系模型上互相关联的二维表组成的数据库，MySQL是用于管理关系型数据库的数据库管理系统2.MySQL启动与连接1、MySQL启动安装好MyS
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
stm32学习笔记——TIM定时中断算法萌新——1 stm32 学习笔记
一、TIM定时中断的基本概念TIM定时中断是嵌入式系统中一种重要的功能，它基于定时器（TIM）实现。定时器可以对内部时钟或外部事件进行计数，当计数值达到预设的阈值时，会触发一个中断信号。这个中断信号会使CPU暂停当前正在执行的主程序，转而执行预先编写好的中断服务程序（ISR），执行完中断服务程序后，CPU再返回到主程序继续执行。TIM定时中断的核心在于“定时”，它可以实现精确的时间控制，为系统提供
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
API测试(一)：PortSwigger靶场笔记 h4ckb0ss 笔记网络安全 web安全
写在前面这篇文章是关于作者在学习PortSwigger的APITest类型漏洞时的记录和学习笔记使用到的工具为BurpSuitePro漏洞简介什么是apiAPI全称为ApplicationInterface，是应用程序对外提供功能的接口，现在主要有三种api风格，分别是JSON风格的api，RESTful风格的api以及Graphic风格的apiJSON风格请求获取用户信息POST/api/get
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
小程序学习笔记：自定义组件创建、引用、应用场景及与页面的区别 you4580 小程序
在微信小程序开发中，自定义组件是一项极为实用的功能，它能有效提高代码的复用性，降低开发成本，提升开发效率。本文将深入剖析微信小程序自定义组件的各个关键方面，包括创建、引用、应用场景以及与页面的区别，并附上详细代码示例，帮助开发者全面掌握这一技术。一、自定义组件的创建创建自定义组件主要分为以下三个步骤：创建components文件夹：在项目根目录下，通过鼠标右键新建一个名为“components”的
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
STM32学习笔记
实现按键控制LED灯前置知识：基本的GPIO输入模式：读取外部信号（如按键、传感器状态）。——主要用到上拉输入输出模式：向外部输出信号（如控制LED、继电器）。——主要用到推挽输出其他模式：模拟输入、复用功能（如USART、I2C）等。按键的知识与常识按键未按下：GPIO引脚通过上拉电阻连接到VCC，读取为高电平（1）。按键按下：按键将GPIO引脚直接接地，读取为低电平（0）。有关LED的代码部分
C++学习笔记（2）——高精度减法「已注销」 C++学习笔记（每周至少3篇）C++c++
上篇文章我们了解了高精度加法，今天我们来讲减法。和加法一样，减法也是模拟小学减法竖式：先用数组存下被减数和减数：①如果a[i]b,a[i+1]还可以向a[i+2]借位。借位后a[i+1]等于9，而b[i+1]最大为9。我们来看一下高精度减法的思路：①高精度数的读取存储：使用字符串方式读取，然后转成整型数组，为方便计算，进行逆向存储。②模拟竖式进行减法：相同位置进行相减，不够减时进行借位③去除前导0
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin