CharlesVan

第12章计算学习理论

12.1 基础知识

计算机学习理论(computational learning theory)研究通过计算来进行学习的理论，即关于机器学习的理论基础，其目的是分析学习任务的困难本质。

给定样例集 $\left\{ \left( x_{1},y_{1} \right),\left( x_{2},y_{2} \right),\ldots,\left( x_{m},y_{m} \right) \right\},x_{i}\mathcal{\in X,}y_{i}\mathcal{\in Y =}\left\{ - 1, + 1 \right\}$ ，假设 $\mathcal{X}$ 中的所有样本服从一个隐含未知的分布 $\mathcal{D}$ ，D中所有样本都是独立地从这个分布上采样而得。

令h为从 $\mathcal{X}$ 到 $\mathcal{Y}$ 的一个映射，其泛化误差为

$E\left( h,\mathcal{D} \right) = P_{x\sim\mathcal{D}}\left( h\left( x \right) \neq y \right)$

H在D上的经验误差为

$\hat{E}\left( h;D \right) = \frac{1}{m}\sum_{i = 1}^{m}{\mathbb{I}\left( h\left( x_{i} \right) \neq y_{i} \right)}$

误差参数：用 $\epsilon$ 表示预先设定的学得模型所应满足的误差要求。

常用不等式

Jensen不等式：对任意凸函数 $f\left( x \right)$ ，有

$f\left( \mathbb{E}\left( x \right) \right)\mathbb{\leq E}\left( f\left( x \right) \right)$

Hoeffding不等式：若 $x_{1},x_{2},\ldots,x_{m}$ 为m个独立随机变量，且满足 $\leq x_{i} \leq 1$ ，则对任意 $\epsilon > 0$ ，有

$P\left( \frac{1}{m}\sum_{i = 1}^{m}{x_{i} - \frac{1}{m}}\sum_{i = 1}^{m}{\mathbb{E}\left( x_{i} \right)} \geq \epsilon \right) \leq exp\left( - 2m\epsilon^{2} \right)$

$P\left( \left| \frac{1}{m}\sum_{i = 1}^{m}{x_{i} - \frac{1}{m}}\sum_{i = 1}^{m}{\mathbb{E}\left( x_{i} \right)} \right| \geq \epsilon \right) \leq 2exp\left( - 2m\epsilon^{2} \right)$

MeDiarmid不等式：若 $x_{1},x_{2},\ldots,x_{m}$ 为m个独立随机变量，且对任意 $\leq i \leq m$ ，函数f满足

$\frac{\sup\left| f\left( x_{1},x_{2},\ldots,x_{m} \right) - f\left( x_{1},\ldots,x_{i - 1},x_{i}^{'},x_{i + 1}\ldots,x_{m} \right) \right| \leq c_{i}}{x_{1},x_{2},\ldots,x_{m},x_{i}^{,}}$

则对任意 $\epsilon > 0$ ，有

$P\left( f\left( x_{1},x_{2},\ldots,x_{m} \right)\mathbb{- E}\left( f\left( x_{1},x_{2},\ldots,x_{m} \right) \right) \geq \epsilon \right) \leq exp\left( \frac{- 2\epsilon^{2}}{\sum_{i}^{}c_{i}^{2}} \right)$

$P\left( \left| f\left( x_{1},x_{2},\ldots,x_{m} \right)\mathbb{- E}\left( f\left( x_{1},x_{2},\ldots,x_{m} \right) \right) \right| \geq \epsilon \right) \leq 2exp\left( \frac{- 2\epsilon^{2}}{\sum_{i}^{}c_{i}^{2}} \right)$

12.2 PAC学习

PAC辨识(PAC Identify)：对 $\epsilon < 0,\delta < 1$ ,所有 $c\mathcal{\in C}$ 和分布 $\mathcal{D}$ ，若存在学习算法 $\mathcal{L}$ ，其输出假设 $h\mathcal{\in H}$ 满足

$P\left( E\left( h \right) \leq \epsilon \right) \geq 1 - \delta$

则称学习算法 $\mathcal{L}$ 能从假设空间 $\mathcal{H}$ 中的PAC辨识概念类 $\mathcal{C}$

PAC可学习(PAC learnable)：令m表示从分布 $\mathcal{D}$ 中独立同分布采样得到的样例数目， $\epsilon< 0,\delta <1$ ，对所有分布 $\mathcal{D}$ ，若存在学习算法 $\mathcal{L}$ 和多项式函数 $\text{poly}\left(.,.,. \right)$ ，使得对于任何 $\geq ploy\left(\frac{1}{\epsilon},\frac{1}{\delta},{size\left( x \right),size\left( c \right)} \right)$ ， $\mathcal{L}$ 能从假设空间 $\mathcal{H}$ 中PAC辨识概念类 $\mathcal{C}$ ，则称概念类 $\mathcal{C}$ 对假设空间 $\mathcal{H}$ 而言是PAC可学习的，有时也称概念类 $\mathcal{C}$ 是PAC可学习的

PAC学习算法(PAC Learning Algorithm)：若学习算法 $\mathcal{L}$ 使概念类 $\mathcal{C}$ 为PAC可学习的，且 $\mathcal{L}$ 的运行时间也是多项式函数 $\text{ploy}\left( \frac{1}{\epsilon},\frac{1}{\delta}{,size\left( x \right),size\left( c \right)} \right)$ ，则称概念类 $\mathcal{C}$ 是高效PAC可学习的(efficiently PAC Learnable)，称 $\mathcal{L}$ 为概念类 $\mathcal{C}$ 的PAC学习算法

样本复杂度(Sample Complexity)：满足PAC学习算法 $\mathcal{L}$ 所需的 $\geq ploy\left( \frac{1}{\epsilon},\frac{1}{\delta}{,size\left( x \right),size\left( c \right)} \right)$ 中最小的m，称为学习算法 $\mathcal{L}$ 的样本复杂度

12.3 有限假设空间

12.3.1 可分情形

可分情形：目标概念c属于假设空间 $\mathcal{H}$

假设h的泛化误差大于 $\epsilon$ ，对分布 $\mathcal{D}$ 上随机采样的任何样例 $\left( x,y \right)$

$P\left( h\left( x \right) = y \right) = 1 - P\left( h\left( x \right) \neq y \right) = 1 - E\left( h \right) < 1 - \epsilon$

由于D包含m个从 $\mathcal{D}$ 独立同分布采样而得的样例，h与D表现一致的概率为

$P\left( \left( h\left( x_{1} \right) = y_{1} \right) \land \ldots \land \left( h\left( x_{m} \right) = y_{m} \right) \right) = \left( 1 - P\left( \left( h\left( x \right) \neq y \right) \right) \right)^{m} < \left( 1 - \epsilon \right)^{m}$

仅需保证泛化误差大于 $\epsilon$ ，且在训练集上表现完美的所有假设出现概率之和不大于 $\delta$ ：

$P\left( h \in \mathcal{H:}E\left( h \right) > \epsilon \land \hat{E}\left( h \right) = 0 \right) < \left| \mathcal{H} \right|\left( 1 - \epsilon \right)^{m} < \left| \mathcal{H} \right|e^{- m\epsilon}$

令上式不大于 $\delta$ ，即

$\left| \mathcal{H} \right|e^{- m\epsilon} \leq \delta$

得

$\geq \frac{1}{\epsilon}\left( \ln{\left| \mathcal{H} \right| + \ln\frac{1}{\delta}} \right)$

12.3.2 不可分情形

不可分情形：目标概念c不属于假设空间 $\mathcal{H}$

若训练集D包含m个从分布 $\mathcal{D}$ 上独立同分布采样而得的样例， $\epsilon < 1$ ，则对任意 $h\mathcal{\in H}$ ，有

$P\left( \hat{E}\left( h \right) - E\left( h \right) \geq \epsilon \right) \leq exp\left( - 2m\epsilon^{2} \right)$

$P\left( E\left( h \right) - \hat{E}\left( h \right) \geq \epsilon \right) \leq exp\left( - 2m\epsilon^{2} \right)$

$P\left( \left| E\left( h \right) - \hat{E}\left( h \right) \right| \geq \epsilon \right) \leq 2exp\left( - 2m\epsilon^{2} \right)$

若训练集D包含m个从分布 $\mathcal{D}$ 上独立同分布采样而得的样例， $\epsilon < 1$ ，则对任意 $h\mathcal{\in H}$ ，则以 $\delta$ 的概率成立

$\hat{E}\left( h \right) - \sqrt{\frac{\ln\left( \frac{2}{\delta} \right)}{2m}} \leq E\left( h \right) \leq \hat{E}\left( h \right) + \sqrt{\frac{\ln\left( \frac{2}{\delta} \right)}{2m}}$

上式表明，样例数目m较大时，h的经验误差是其泛化误差很好的近似。

若 $\mathcal{H}$ 为有限假设空间， $\delta < 1$ ，则对任意 $h\mathcal{\in H}$ ，有

$P\left( \left| E\left( h \right) - \hat{E}\left( h \right) \right| \leq \sqrt{\frac{\ln{\left| \mathcal{H} \right| + \ln\left( \frac{2}{\delta} \right)}}{2m}} \right) \geq 1 - \delta$

不可知PAC可学习(agnostic PAC learnable)：令m表示从分布 $\mathcal{D}$ 上独立同分布采样而得的样例数目， $<\epsilon,\delta <1$ ，对所所有分布 $\mathcal{D}$ ，若存在学习算法 $\mathcal{L}$ 和多项式函数 $\text{poly}\left(.,.,. \right)$ ，使得对于任何 $\geq ploy\left( \frac{1}{\epsilon},\frac{1}{\delta}{,size\left( x \right),size\left( c \right)} \right)$ ， $\mathcal{L}$ 能从假设空间 $\mathcal{H}$ 中输出满足下式的假设h：

则称假设空间 $\mathcal{H}$ 是不可知PAC可学习的

12.4 VC维

给定假设空间 $\mathcal{H}$ 和示例集 $\left\{ x_{1},x_{2},\ldots,x_{m} \right\}$ ， $\mathcal{H}$ 中每个假设h都能对D中示例赋予标记，标记结果可表示为

${h|}_{D} = \left\{ \left( h\left( x_{1} \right),h\left( x_{2} \right),\ldots,h\left( x_{m} \right) \right) \right\}$

随着m的增大， $\mathcal{H}$ 中所有假设对D中的示例所能赋予标记的可能结果数也会增大

对所有 $\in \mathcal{N}$ ，假设空间 $\mathcal{H}$ 的增长函数(growth function) $\Pi_{\mathcal{H}}\left( m \right)$ 为

对假设空间 $\mathcal{H},m \in \mathbb{N},0 < \epsilon < 1$ 和任意 $\in \mathcal{H}$ 有

$P\left( \left| E\left( h \right) - \hat{E}\left( h \right) \right| > \epsilon \right) \leq 4\Pi_{\mathcal{H}}\left( 2m \right)\exp\left( - \frac{m\epsilon^{2}}{8} \right)$

假设空间 $\mathcal{H}$ 的VC维是能被 $\mathcal{H}$ 打散的最大示例集的大小，即

$\text{VC}\left( \mathcal{H} \right) = max\left\{ m:\Pi_{\mathcal{H}}\left( m \right) = 2^{m} \right\}$

若假设空间 $\mathcal{H}$ 的VC维为d，则对任意 $m\mathbb{\in N}$ 有

$\Pi_{\mathcal{H}}\left( m \right) \leq \sum_{i = 1}^{d}\left( \frac{m}{i} \right)$

若假设空间 $\mathcal{H}$ 的VC维为d，则对任意 $\geq d$ 有

$\Pi_{\mathcal{H}}\left( m \right) \leq \left( \frac{e*m}{d} \right)^{d}$

若假设空间 $\mathcal{H}$ 的VC维为d，则对任意 $\delta < 1$ $和$ $\in \mathcal{H}$ 有

$P\left( \left| E\left( h \right) - \hat{E}\left( h \right) \right| \leq \sqrt{\frac{8d\ln{\frac{2em}{d} + 8\ln\frac{4}{\delta}}}{m}} \right) \geq 1 - \delta$

任何VC维有限的假设空间 $\mathcal{H}$ 都是(不可知)PAC可学习的

12.5 Rademacher复杂度

Rademacher复杂度(Rademacher complexity)是另一种刻画假设空间复杂度的途径，在一定程度上考虑数据分布。

给定训练集 $\left\{ \left( x_{1},y_{1} \right),\left( x_{2},y_{2} \right),\ldots,\left( x_{m},y_{m} \right) \right\}$ ，假设h的经验误差为

其中 $\frac{1}{m}\sum_{i = 1}^{m}{y_{i}h\left( x_{i} \right)}$ 体现了预测值 $h\left( x_{i} \right)$ 与样例真实标记 $y_{i}$ 之间的一致性，若对于所有 $\in \left\{ 1,2,\ldots,m \right\}$ 都有 $h\left( x_{i} \right) = y_{i}$ ，则 $\frac{1}{m}\sum_{i = 1}^{m}{y_{i}h\left( x_{i} \right)}$ 取最大值1，误差经验最小的假设是

考虑随机变量 $\sigma_{i}$ ，以0.5的概率取值-1，0.5的概率取值+1，称为Rademacher随机变量。基于 $\sigma_{i}$ 的重写为

则上式取得的期望为

其中 $\sigma = \left\{ \sigma_{1},\sigma_{2},\ldots,\sigma_{m} \right\}$

考虑实值函数空间 $\mathcal{F:Z}\mathbb{\rightarrow R}$ 。令 $\left\{ z_{1},z_{2},\ldots,z_{m} \right\}$ ，其中 $z_{i}\mathcal{\in Z}$ ，函数空间 $\mathcal{F}$ 关于 $\mathcal{Z}$ 的经验Rademacher复杂度

函数空间 $\mathcal{F}$ 关于 $\mathcal{Z}$ 上分布 $\mathcal{D}$ 的Rademacher复杂度

$R_{m}\left( \mathcal{F} \right) = \mathbb{E}_{Z \subseteq \mathcal{Z:}\left| Z \right| = m}\left\lbrack {\hat{R}}_{Z}\left( \mathcal{F} \right) \right\rbrack$

基于Rademacher复杂度可得关于函数空间 $\mathcal{F}$ 的泛化误差界

对实值函数空间 $\mathcal{F:Z \rightarrow}\left\lbrack 0,1 \right\rbrack$ ，根据分布 $\mathcal{D}$ 从 $\mathcal{Z}$ 中独立分布采样得到示例集 $\left\{ z_{1},z_{2},\ldots,z_{m} \right\},z_{i}\mathcal{\in Z},0 < \delta < 1$ ，对任意 $f\mathcal{\in F}$ ，以至少 $\delta$ 的概率有

$\mathbb{E}\left\lbrack f\left( z \right) \right\rbrack \leq \frac{1}{m}\sum_{i = 1}^{m}{f\left( z_{i} \right) + 2R_{m}\left( \mathcal{F} \right) + \sqrt{\frac{\ln\left( \frac{1}{\delta} \right)}{2m}}}$

$\mathbb{E}\left\lbrack f\left( z \right) \right\rbrack \leq \frac{1}{m}\sum_{i = 1}^{m}{f\left( z_{i} \right) + 2{\hat{R}}_{Z}\left( \mathcal{F} \right) + 3\sqrt{\frac{\ln\left( \frac{2}{\delta} \right)}{2m}}}$

对假设空间 $\mathcal{H:X \rightarrow}\left\{ - 1, + 1 \right\}$ ，根据分布 $\mathcal{D}$ 从 $\mathcal{X}$ 中独立分布采样得到示例集 $\left\{ x_{1},x_{2},\ldots,x_{m} \right\},x_{i}\mathcal{\in X},0 < \delta < 1$ ，对任意 $h\mathcal{\in H}$ ，以至少 $\delta$ 的概率有

$\mathbb{E}\left( h \right) \leq \hat{E}\left( h \right) + R_{m}\left( h \right) + \sqrt{\frac{\ln\left( \frac{1}{\delta} \right)}{2m}}$

$\mathbb{E}\left( h \right) \leq \hat{E}\left( h \right) + {\hat{R}}_{D}\left( h \right) + 3\sqrt{\frac{\ln\left( \frac{1}{\delta} \right)}{2m}}$

假设空间 $\mathcal{H}$ 的Rademacher复杂度 $R_{m}\left( \mathcal{H} \right)$ 与增长函数 $\Pi_{\mathcal{H}}\left( m \right)$ 满足

$R_{m}\left( \mathcal{H} \right) \leq \sqrt{\frac{2\ln{\Pi_{\mathcal{H}}\left( m \right)}}{m}}$

则

$E\left( h \right) \leq \hat{E}\left( h \right) + \sqrt{\frac{2d\ln\frac{\text{em}}{d}}{m}} + \sqrt{\frac{\ln\left( \frac{1}{\delta} \right)}{2m}}$

12.6 稳定性

算法的稳定性考察的是算法在输入发生变化时，输出是否会随之发生较大的变化。

给定 $\left\{ z_{1} = \left( x_{1},y_{1} \right),z_{2} = \left( x_{2},y_{2} \right),\ldots,z_{m} = \left( x_{m},y_{m} \right) \right\},x_{i}\mathcal{\in X}$ 是来自分布 $\mathcal{D}$ 的独立同分布示例， $y_{i} = \left\{ - 1, + 1 \right\}$ 。对假设空间 $\mathcal{H:X \rightarrow}\left\{ - 1, + 1 \right\}$ 和学习算法 $\mathcal{L}$ ，令 $\mathcal{L}_{D}\mathcal{\in H}$ 表示基于训练集D从假设空间 $\mathcal{H}$ 中学得的假设。

$\ i D^{\backslash i}$ 表示移除D中第i个样例得到的集合

$\ i = { z 1 , z 2 , … , z i − 1 , z i + 1 , … , z m } D^{\backslash i} = \left\{ z_{1},z_{2},\ldots,z_{i - 1},z_{i + 1},\ldots,z_{m} \right\}$

$D^{i}$ 表示替换D中第i个样例得到的集合

$\ i = { z 1 , z 2 , … , z i − 1 , z i ′ , z i + 1 , … , z m } D^{\backslash i} = \left\{ z_{1},z_{2},\ldots,z_{i - 1},{z_{i}^{'},z}_{i + 1},\ldots,z_{m} \right\}$

其中 $z_{i}^{'} = \left( x_{i}^{'},y_{i}^{'} \right),x_{i}^{'}$ 服从分布 $\mathcal{D}$ 并独立于D

损失函数 $\mathcal{l}\left( \mathcal{L}_{D}\left( x \right),y \right)\mathcal{:Y \times Y \rightarrow}\mathbb{R}^{+}$ 刻画了假设 $\mathcal{L}_{D}$ 的预测标记 $\mathcal{L}_{D}\left( x \right)$ 与真实标记y之间的差别，简记 $\mathcal{l}\left( \mathcal{L}_{D},z \right)$ ，则

泛化损失

$\mathcal{l}\left( \mathcal{L,D} \right) = \mathbb{E}_{x \in \mathcal{X,}z = \left( x,y \right)}\left\lbrack \mathcal{l}\left( \mathcal{L}_{D},z \right) \right\rbrack$

经验损失

$\hat{\mathcal{l}}\left( \mathcal{L,D} \right) = \frac{1}{m}\sum_{i = 1}^{m}{\mathcal{l}\left( \mathcal{L}_{D},z_{i} \right)}$

留一(leave-one-out)损失

$\ i , z i ) \mathcal{l}_{\text{loo}}\left( \mathcal{L,D} \right) = \frac{1}{m}\sum_{i = 1}^{m}{\mathcal{l}\left( \mathcal{L}_{D^{\backslash i}},z_{i} \right)}$

对任意 $\in \mathcal{X,}z = \left( x,y \right)$ ，若学习算法 $\mathcal{L}$ 满足 $\ i , z ) ∣ ≤ β , i = 1 , 2 , … , m \left| \mathcal{l}\left( \mathcal{L}_{D},z \right) - \mathcal{l}\left( \mathcal{L}_{D^{\backslash i}},z \right) \right| \leq \beta,i =1,2,\ldots,m$ ，则称 $\mathcal{L}$ 关于损失函数 $\mathcal{l}$ 满足 $\beta$ -均匀稳定性。

则

$\ i , z ) ∣ ≤ ∣ l ( L D , z ) − l ( L D \ i , z ) ∣ + ∣ l ( L D i , z ) − l ( L D \ i , z ) ∣ ≤ 2 β \left| \mathcal{l}\left( \mathcal{L}_{D},z \right) - \mathcal{l}\left( \mathcal{L}_{D^{\backslash i}},z \right) \right| \leq \left| \mathcal{l}\left( \mathcal{L}_{D},z \right) - \mathcal{l}\left( \mathcal{L}_{D^{\backslash i}},z \right) \right| + \left| \mathcal{l}\left( \mathcal{L}_{D^{i}},z \right) - \mathcal{l}\left( \mathcal{L}_{D^{\backslash i}},z \right) \right| \leq 2\beta$

若损失函数 $\mathcal{l}$ 有界，即对所有D和 $\left( x,y \right)$ 有 $0\mathcal{\leq l}\left( \mathcal{L}_{D},z \right) \leq M$ ，则有：

给定分布 $\mathcal{D}$ 上独立同分布采样得到的大小为m的示例集D，若学习算法 $\mathcal{L}$ 满足关于损失函数 $\mathcal{l}$ 满足 $\beta$ -均匀稳定性，且损失函数 $\mathcal{l}$ 的上界为 $\delta < 1$ ，则对任意 $\geq 1$ ，以至少 $\delta$ 的概率有

$\mathcal{l}\left( \mathcal{L,D} \right) \leq \hat{\mathcal{l}}\left( \mathcal{L,D} \right) + 2\beta + \left( 4m\beta + M \right)\sqrt{\frac{\ln\left( \frac{1}{\delta} \right)}{2m}}$

$\mathcal{l}\left( \mathcal{L,D} \right) \leq \mathcal{l}_{\text{loo}}\left( \mathcal{L,D} \right) + \beta + \left( 4m\beta + M \right)\sqrt{\frac{\ln\left( \frac{1}{\delta} \right)}{2m}}$

对损失函数 $\mathcal{l}$ ，若学习算法 $\mathcal{L}$ 满足经验风险最小化(Empirical Risk Minimization)原则，简称算法是ERM的

若学习算法 $\mathcal{L}$ 是ERM且稳定的，则假设空间 $\mathcal{H}$ 可学习。

【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
ARM指令集--简介小蘑菇二号 arm 指令集
目录1ARM指令集特点2ARM指令集分类3指令格式ARM指令集是专为ARM架构处理器设计的一系列机器指令集合。ARM（AdvancedRISCMachines）以其精简指令集计算机（RISC）设计理念为基础，提供了高效、低功耗的指令系统。ARM指令集历经多个版本迭代，目前最新的主流版本包括ARMv8-A（支持AArch64和AArch32两种执行状态）。1ARM指令集特点-**精简指令集**：指令
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
每日面试题11：JVM
深入理解JVM：Java的“心脏”如何驱动程序运行？为什么需要JVM？你是否想过，为什么用Java写的程序，能在Windows、Linux、macOS上“无缝运行”？为什么开发者无需为不同操作系统重写代码？这背后的核心功臣，正是Java虚拟机（JavaVirtualMachine，JVM）。JVM是Java生态的“基石”，它不仅实现了“一次编写，随处运行”的跨平台特性，还通过内存管理、垃圾回收等机
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
推荐项目： Few-Shot-Adversarial-Learning-for-face-swap 邱晋力
推荐项目：Few-Shot-Adversarial-Learning-for-face-swap去发现同类优质开源项目:https://gitcode.com/1、项目介绍Few-Shot-Adversarial-Learning-for-face-swap是一个基于PyTorch的开源实现，重演了三星AI实验室的一项前沿研究——“Few-ShotAdversarialLearningofReal
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
lanqiaoOJ 4330：欧拉函数模板 hnjzsyjyj 信息学竞赛 #算法数学基础欧拉函数
【题目来源】https://www.lanqiao.cn/problems/4330/learning/【问题描述】这是一道模板题。首先给出欧拉函数的定义：即φ(n)表示的是小于等于n的数中和n互质的数的个数。比如说φ(6)=2，当n是质数的时候，显然有φ(n)=n-1。【题目大意】给定n个正整数，请你求出每个数的欧拉函数。【输入格式】输入共两行。第一行输入一个整数表示n。第二行输入n个整数。【输
lanqiaoOJ 2122：数位排序 ← 排序（自定义比较函数）
【题目来源】https://www.lanqiao.cn/problems/2122/learning/【题目描述】小蓝对一个数的数位之和很感兴趣，今天他要按照数位之和给数排序。当两个数各个数位之和不同时，将数位和较小的排在前面，当数位之和相等时，将数值小的排在前面。例如，2022排在409前面，因为2022的数位之和是6，小于409的数位之和13。又如，6排在2022前面，因为它们的数位之和相同
lanqiaoOJ 2145：求阶乘 ← 二分法 hnjzsyjyj 信息学竞赛 #分治算法与双指针算法二分法
【题目来源】https://www.lanqiao.cn/problems/2145/learning/【题目描述】满足N！的末尾恰好有K个0的最小的N是多少？如果这样的N不存在输出-1。【输入格式】一个整数K。【输出格式】一个整数代表答案。【输入样例】2【输出样例】10【评测用例规模与约定】对于30%的数据，1≤K≤10^6.对于100%的数据，1≤K≤10^18.【算法分析】●二分法的应用条件
client-go: k8s选主
快速上手下面这个代码就是一个选主的大概逻辑packagemainimport("context""flag""fmt"_"net/http/pprof""os""path/filepath""time""golang.org/x/exp/rand"v1"k8s.io/api/core/v1"metav1"k8s.io/apimachinery/pkg/apis/meta/v1""k8s.io/ap
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
基于探路者算法优化的核极限学习机(KELM)分类算法智能算法研学社（Jack旭）智能优化算法应用机器学习 #核极限学习机（KELM）算法分类数据挖掘
基于探路者算法优化的核极限学习机(KELM)分类算法文章目录基于探路者算法优化的核极限学习机(KELM)分类算法1.KELM理论基础2.分类问题3.基于探路者算法优化的KELM4.测试结果5.Matlab代码摘要：本文利用探路者算法对核极限学习机(KELM)进行优化，并用于分类1.KELM理论基础核极限学习机（KernelBasedExtremeLearningMachine，KELM）是基于极限
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
KAIST：LLM混合递归推理大模型任我行大模型-推理优化人工智能自然语言处理语言模型论文笔记
标题：Mixture-of-Recursions:LearningDynamicRecursiveDepthsforAdaptiveToken-LevelComputation来源：arXiv,2507.10524摘要缩放语言模型解锁了令人印象深刻的能力，但伴随的计算和内存需求使训练和部署都很昂贵。现有的效率工作通常针对参数共享或自适应计算，留下了如何同时实现两者的问题。我们引入了混合递归(MoR
【HDLBits习题详解 2】Circuit - Sequential Logic（5）Finite State Machines 【更新中...】薄荷雪 fpga开发
1.Fsm1（SimpleFSM1-asynchronousreset）moduletop_module#(parameterA=0;parameterB=1;),(outputregout,inputclk,inputareset,inputin);regstate,next_state;//Outputlogic//assignout=(state==...);assignout=;alway
How to SSH into your Ubuntu machine from macOS as superuser captainOO7 Networking ssh ubuntu macos
ToSSHintoyourUbuntumachinefrommacOSassuperuser,you’llfirstconnectasaregularuser,thenelevateprivilegesonceloggedin.Here'showtodoitstepbystep:Step1:EnableSSHonUbuntuMakesuretheSSHserverisinstalledandrun
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
【DW11月-深度学习】Task03前馈神经网络沫2021
参考链接：https://datawhalechina.github.io/unusual-deep-learning/#/4.%E5%89%8D%E9%A6%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C一、神经元模型2.1神经元1943年，美国神经生理学家沃伦·麦卡洛克(WarrenMcCulloch)和数学家沃尔特·皮茨(WalterPitts)对生物神经元进行
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
预测导管原位癌浸润性复发的深度学习：利用组织病理学图像和临床特征浪漫的诗人论文深度学习人工智能
文章目录研究内容目的方法数据集模型开发模型训练与评估外部验证统计分析研究结果模型性能风险分层外部验证特征重要性原文链接原文献：Deeplearningforpredictinginvasiverecurrenceofductalcarcinomainsitu:leveraginghistopathologyimagesandclinicalfeatures研究背景【DCIS与IBC的关联】乳腺导管
《How to Take Smart Notes》读书笔记1 LY320
最近在读一本书，题为《HowtoTakeSmartNotes:OneSimpleTechniquetoBoostWriting,LearningandThinking–forStudents,AcademicsandNonfictionBookWriters》1。尚未读完，分享一些读这本书的感想，我的一些心得，和不解。这本书让我觉得最有收获的点是更新了我对记录和整理笔记的认识。通常我们在记录笔记时
2021-03-22 每日打卡来多喜
昨日完成情况：1.完成了3k跑，太久没锻炼体力跟不上，没力气做帕梅拉了。2.MathematicsforMachineLearning:LinearAlgebra学完了week3和week4，week5还剩大概一个小时学完，没有开始做思维导图。早上跑步回来后看《你是我的城池堡垒》看了两个小时，虽然一边看一边洗碗，洗完碗一边看一边吃饭，但是从三点多才开始学习。重要的事情要先做！3.没有时间做Pyth
Opencv学习_2 （opencv结构&显示图像）
opencv结构：1：主要包含：cxcorecvmachinelearninghighguicvcamcvaux2：cxcore:基础结构:CvPoint,CvSize,CvScalar等数组结构:cvCreateImage,cvCreateMat等动态结构:CvMemStorage,CvMemBlock等绘图函数:cvLine,cvRectangle等数据保存和运行时类型信息：CvFileSto
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

第12章 计算学习理论

第12章 计算学习理论

12.1 基础知识

12.2 PAC学习

12.3 有限假设空间

12.3.1 可分情形

12.3.2 不可分情形

12.4 VC维

12.5 Rademacher复杂度

12.6 稳定性

你可能感兴趣的:(Machine,Learning)

第12章计算学习理论

第12章计算学习理论