Nemo555

机器学习中的外推问题(OOD上，硬核慎点)

Out-of-distribution-上

概述
一、量化外推泛化能力
- 0.专业术语&核心理解（逻辑链）
- 1.1 值得记住的3个Examples
- - 1.1.1 Spurious Correlation
  - 1.1.2 Background Bias
  - 1.1.3 Geometric Space
- 1.2 Examples总结
- 1.3 常规解决方法
- - 1.3.1 Robust Optimization
  - 1.3.2 Distance Measure Robustness
  - 1.3.4 Domain Adaptation
- 1.4 方法总结&全文中心点
二、OOD的主要理论
- 2.1 如何学习一个好的Representation?
- - 2.1.1 主要论点
- 2.2 什么样的假设可以保证representation的泛化？
- - 2.2.1 三个概念之间的等价性（联合假设）
  - 2.2.2 对训练环境 $\mathcal E_{train}$ 的结构假设
  - 2.2.3 $\mathcal E_{train}$ 泛化到 $\mathcal E_{all}$ 的前提假设
三、总结

概述

定位：对2021年纽约大学Martin Arjovsky的PhD论文进行提炼，是一篇阅读笔记；

参考文献：Out of Distribution Generalization in Machine Learning

术语：Performance gap：在数据集训练的模型，在测试集表现的性能差异，因为在测试集会遇到out-of-distribution的data
OOD的两大问题
1. 有效的数据长什么样，怎么来的？ What kind of data is available？
2. 希望模型的泛化能力适应哪些测试数据？What do we want to generalize to ?
OOD关注点
1. 需要对数据做哪些假设，才能使其适应问题的结构
2. 如何选择合适的算法进行学习，使模型的泛化能力“定向增强”?

如果数据的假设太强，就会不适应问题的结构，哪怕学习算法再好，模型的泛化性能也不强；
如果数据的假设太弱，模型泛化能力的导向性就不强，很难有什么实际的提升。
如果不对数据做任何假设，就没大意义了，想提高泛化性就不断加大训练数据的量到巨量、海量就是了，毕竟天下没有免费的午餐。

一、量化外推泛化能力

关注方法对数据的假设，哪些假设在哪些任务是有效的，在哪些任务是无效的？

0.专业术语&核心理解（逻辑链）

符号	术语含义
$\mathcal{X,Y}$	样本空间/输入空间 (input space) 、标记空间/输出空间(label space)
$\mathcal{\hat Y}$	预测空间 (predicted label space)
$\ell:\mathcal{\hat Y \times Y}\rightarrow \mathbb R_{+}$	损失函数(loss function)
$f:\mathcal{X\rightarrow \hat Y}$	假设空间/预测函数 (hypothesis/predictor)
$\{\mathbb P^e\}_{e\in \mathcal E}\in \mathcal{X\times Y}$	在input space与label space联合空间上，受环境 $e\in \mathcal E$ 控制的概率分布
$(\mathcal{X^e,Y^e})\sim \mathbb P^e$	在具体环境 $e$ 下，样本与label服从概率分布 $\mathbb P^e$
$R^e(f):=\mathbb E_{(X^e,Y^e)\sim \mathbb P^e}[\ell(f(X^e,Y^e)]]$	衡量环境 $e$ 下假设或预测器 $f$ 的经验风险
$\Phi:\mathcal {X\rightarrow \hat H}$	特征提取器(featurizer)， $\Phi$ 将样本空间映射到特征空间
$w:\mathcal{\hat H\rightarrow Y}$	分类器(classifier)， $w$ 将特征空间分类到标记空间

基础概念的理解特别重要。采用业务流程加深理解记忆：

有一个分类任务的场景需求，首先抽象出其input space $\mathcal X$ 和 output space $\mathcal Y$
在具体环境 $e$ 下（比如特定时间点，特定人群等），观察得到受环境 $e$ 制约的数据集 $X^e$ ，人为标记得到 $Y^e$
由Keep it Simple的原则，决定采用一个End-To-End的预测器predictor $f:\mathcal{X\rightarrow \hat Y}$
根据业务理解，选择损失函数 $\ell:\mathcal{\hat Y \times Y}\rightarrow \mathbb R_{+}$ ， $f$ 的predictor结构与算法
最小化经验风险 $R^e(f):=\mathbb E_{(X^e,Y^e)\sim \mathbb P^e}[\ell(f(X^e,Y^e)]]$ ，发现 $f$ 的初始效果还不错
于是决定，不断改进其损失函数 $\ell$ ，尝试不同的结构与算法来得到 $f$ ，提升了不少性能
进入了业务瓶颈，发现一些异常状态怎样都无法解决，抛弃简单原则，进行“定向泛化”
根据业务需求，魔改特征或网络学习特征，制定一个较为通用的特征提取器 $\Phi:\mathcal {X\rightarrow \hat H}$ ，将样本映射到特征空间
对异常状态归类，采用不同的分类器对特征进行分类 $w:\mathcal{\hat H\rightarrow Y}$
从而使得该系统对业务更为鲁棒，不断收集更多样的样本 $X^{e'},e'\in \mathcal E$ ，继续标记 $Y^{e'}$ 迭代

$X$ 与 $Y$ 之间的相关性(correlation)，既有linear dependence又有non-linear dependence
重点来了：
因此，我们假设数据来源于一个受限分布 $\mathbb P^e$ ，受限分布来源于一个meta-distribution $e\sim \mathcal E$ 。
而我们训练的数据，可能来自多个 $\mathbb P^e$ ，这多个 $e$ 的集合记为 $\mathcal E_{train}$ ；而部署上线的系统或分类器 $w$ ，面对的数据是大概率来自于所有环境 $e$ 产生的，记为 $\mathcal E_{all}$ ; 因此，得从 $\mathcal E_{train}$ 得到的数据中，尽量寻找到尽可能多的invariance，并能外推到 $\mathcal E_{all}$ 上，即泛化能力。

通篇有两个关键问题得铭记在心：
问题一：如何从 $\mathcal E_{train}$ 从抽出invariance？(IRM–>IRMv1–>Representation function)
问题二：什么样的假设与理论可以保证invariance可以generalize到 $\mathcal E_{all}$ ？

1.1 值得记住的3个Examples

这四个例子，主要目的是帮助理解X与Y之间的correlation究竟是什么？会遇到什么问题？

1.1.1 Spurious Correlation

问题模式 $X_1\rightarrow Y\rightarrow X_2$
比如 $X^e=(X_1^e,X_2^e)$ 代表 $e$ 地理区域的住房需求、人口素质水平的两维特征，而 $Y^e$ 代表房价。如果数据的生成过程如下： $X_1\rightarrow Y\rightarrow X_2$
$\begin{array}{l} X_{1}^{e} \leftarrow \operatorname{Gaussian}(0,1) \\ Y^{e} \leftarrow X_{1}^{e}+\operatorname{Gaussian}(0,1) \\ X_{2}^{e} \leftarrow \beta(e) Y^{e}+\operatorname{Gaussian}(0,1) \end{array}$

住房需求 $X_1$ 通常决定房价 $Y$ ，而房价高低 $Y$ 又在某种程度上影响着人口素质水平 $X_2$ ，不同区域 $e$ 的影响程度由 $\beta(e)$ 控制。所以在北上广深这些一线城市 $e$ ， $\beta(e)$ 可能是正的，房价越高意味着人口素质水平越高；在三四线城市这些 $e'，\beta(e')$ 可能是负的，房价越高意味着人口素质水平越低；

通常来说，做这个任务，一般采用Empirical Risk Minimization来处理观察到的数据集 $X, Y$ ，ERM核心假设：训练样本点是i.i.d且我们对问题的meta-distribution一无所知。但如果数据集都来自于北上广深 $\mathcal E_{train}$ ，采用ERM学习一个预测器 $f$ ，你觉得它们可以“泛化”到三四线城市 $\mathcal E_{all}$ 吗？

为什么？因为我们只看到数据，看不到数据生成过程，还做了一个“极其省力”的ERM假设。所以，为了提高其“外推”能力，必须得从数据中学习meta-distribution的结构，以及更换ERM这个核心假设。

术语一点：真实的关系是 $\hat Y =f(X)=\alpha_1X_1$ ，省力用ERM假设，学习到的 $f$ 一般是 $\hat Y=f(X) = \alpha_1X_1 + \alpha_2X_2$ ，因此这个例子的关注点是Spurious Correlation，这里的ERM假设太强，假设了训练与测试环境来自同一个distribution，而meta-distribution结构上由一个自由变量 $\beta(e)$ 控制。

1.1.2 Background Bias

问题模式: $(X_1,X_2)\rightarrow Y$

简要描述一下：从一个数据集的图片中识别牛(cow)的任务，这数据集主要从两个环境收集，比如英国和印度，比例分别为80%和20%。然后丢进一个深度网络一把梭哈，训练准确率99%，测试准确率95%，发现还不错。部署上线，测试准确率惨不忍睹，因为英国的牛大部分在草原(grass)上，印度的牛大部分在沙漠(dessert)上，所以网络学会的是分辨草原和沙漠，而不是牛(cow)本身。( $X_1$ 指图像中的context， $X_2$ 指图像中的landscapes)

这个问题关注点是Background Bias，样本 $X$ 是一张图片，维度是pixels，而控制环境 $e$ 的是某些离散Meta-feature（浅层的feature比如草原和沙漠的Background bias，还可以是天空与房屋，深层的feature比如是地理位置，毕竟不同区域的景观不同），人为根本没法仔细区分。

术语一点：cv任务中，input space抽象为landscapes (也可以说styles) 和 contexts，label space抽象为problem of interest (识别牛最关键的假设为轮廓shapes）。但因为各种styles的比例不均，仅仅通过ERM假设，最大似然学习准则，Cross-Entropy的loss是很难分清图像中哪些是对应problem of interest的contexts，哪些是干扰相关的因素。这个关于环境的Meta-distribution( $\mathcal E$ )结构可能非常复杂，meta-feature可能是不同地理区域、不同风俗习惯等信息聚合体，但我们却只关心cow shapes，太难了= =。

1.1.3 Geometric Space

这个问题的模式是 $X\rightarrow Y$ ，特别之处是 $\mathcal E_{all}$ 在 $\mathcal E_{train}$ 的邻域。
这个Examples对应的是对抗样本鲁棒性的任务：
对于在 $\mathcal E_{train}$ 训练好的 $f:X\rightarrow Y$ ，从 $\mathcal E_{train}$ 中取一个 $X$ ，基于某种微小的扰动 $T$ ，使得对抗样本 $T (x)$ 能骗过 $f$ 。因此，可理解成，对抗攻击的过程就是在 $\mathbb P^{train}$ 附近测试的过程，即 $\mathcal E_{all}$ 。

这个问题关注点是Geometric Space，即测试的空间是和训练环境组成的空间是邻近的。但仍然用传统的ERM核心假设，即训练环境与测试环境独立同分布的话，这样就没有利用上这个Geometric Space的信息了。

1.2 Examples总结

Example 1的问题模式 $X_1\rightarrow Y\rightarrow X_2$ ，有因果效应的意味，对于Y而言cause是 $X_1$ ，effect是 $X_2$ （如何区分cause和effect？）
Example 2的问题模式: $(X_1,X_2)\rightarrow Y$ ，有相关性的意味，对于Y而言， $X_1$ 是problem dominant cause， $X_2$ 是correlated cause （如何从这么多cause中选出dominant？）
Example 3的问题模式： $X\rightarrow Y, |\mathcal E_{train}-\mathcal E_{all}|\leq\epsilon$ ，问题多了一个可利用的邻域几何结构（如何简化利用这个几何假设？）

为什么会出现这些Examples？？？因为我们为了省力呀，直接最小化经验风险损失ERM，当训练样本和测试样本真的是来自一个环境的独立同分布可还行，但如果不是i.i.d，而是多个环境的样本那就不行，所以才出现这些问题！为了鲁棒性，为了泛化性，我们不能再偷懒了。

1.3 常规解决方法

上面对三个问题模式泛泛而谈，下面就开始公式化，严肃点了。( $f$ 还记得是predictor吧）
$\begin{aligned} \text{Ideal Goal :}&\quad \mathcal R^{ERM}(f)=\sum_{e\in\mathcal E_{train}}R^e(f)\\ \text{OOD Goal :}&\quad \mathcal R^{OOD}(f) = \max_{e\in \mathcal E_{all}}R^e(f) \end{aligned}$

Ideal Goal是我们最常用的核心假设，对训练集中包含的“环境“通通一视同仁，这样容易造成样本多的环境过拟合，样本少的环境欠拟合，训练准确率很高，但泛化性表现一般。

OOD Goal是外推问题最理想的目标，对所有环境中性能最差 $R^e(f)$ 的进行优化，从而泛化性得以保证。（可惜，实际计算都是算不了的，环境e的分布都不知道，鬼知道哪个环境最差呀。）下面列举一些OOD理想目标的常见折中、妥协的优化方法

1.3.1 Robust Optimization

$\begin{aligned} \text{Goal :}&\quad \mathcal R^{OOD}(f) = \max_{e\in \mathcal E_{all}}R^e(f)\\ \text{Method :}&\quad\mathcal R^{rob}(f) = \max_{e\in \mathcal E_{train}} R^e(f)-r_e\quad\text{where } r_e=\mathcal V[Y^e]\\ \text{Equiv :}&\quad\mathcal R^{rob}(f) = \sum_{e\in \mathcal E_{train}}\lambda_eR^e(f) \end{aligned}$

Robust Optimization Method 的妥协点：

既然不知道 $e\in \mathcal E_{all}$ ，那就 $e\in \mathcal E_{train}$ 吧
$e\in \mathcal E_{train}$ 这玩意有问题，就加一些基于环境 $e$ 的补偿吧
然后假设选择 $r_e$ 是 $Y^e$ 的方差，即最大化predictor $f$ 表现最差环境的方差。（因为 $f$ 在这个e上表现最差，说明没学到什么，所以要加大它的方差，希望它学到点什么）

然后可以说：在训练的时候引入了robustness $r_e)$ ，但并不保证测试的时候有robustness；

理论证明，在一定条件下，这种robust optimization method相当于是对环境加权平均的经验最小化，即：

$\sum_{e\in \mathcal E_{train}}\lambda_e\mathcal R^e(f)\approx \max_{e\in \mathcal E_{train}} R^e(f)-r_e$

这相当于说，希望predictor $f$ 对不同训练环境 $e$ 给予不同的注意力关注。（日常吐槽，前提条件，你得知道具体环境究竟是啥才行呀）
这能解决Example2的问题（因为注意力机制，所以相关性可以被衡量），然而这没办法发现Example1中的Spurious Correlation 即分不清 cause & effect（因为训练集中的 $\beta(e)>0$ ，无法泛化到 $\beta(e)<0$ 的测试环境）

1.3.2 Distance Measure Robustness

这里的Distance Measure主要指Wasserstein Distance和f-divergence

$\mathcal E_{train}=\{P^{train}\}, \mathcal E_{all}=\{P:D_f(P^{train},P)\le \epsilon \text{ or } W(P^{train},P^{test})\le \epsilon\}$

这个解决方法，主要为Example3的adversarial samples量身定制，利用了训练与测试分布之间的结构Geometric Space核心假设：因为 $||T(x)-x||\le \epsilon$ ，所以 $W(P^{train},P^{test})\le \epsilon$ 。

直观地说，是因为adversarial examples来源的测试集环境，与训练集比较相似，是在训练集上的样本进行微小的扰动 $T (x)$ 进行攻击的，所以符合训练集环境与测试集环境在基于Distance Measure的几何空间上被约束在某个范围内了。

这样的假设能解决 Example 2.3，但仍然无法解决Example2.1和Example2.2（Example1要区分cause&effect很显然不行，仔细思考一下那为什么Example2.2不行？）

1.3.4 Domain Adaptation

简要回顾Domain Adaptation：在源环境 $e_{train}$ 收集的Data有label，但另一个环境 $e_{test}$ 的Data没有label，想学习一个classfier能在 $e_{test}$ 上分类（记住目的）。

第一步：先学习一个representation，将两个环境的data映射到特征空间，使它们的概率分布差不多，即：
在一个feature representation下 $\Phi:X\rightarrow \hat{\mathcal H}$ ，有：
$P^{e_{train}}(\Phi(X^{e_{{train}}}))=P^{e_{test}}(\Phi(X^{e_{test}}))$
第二步：然后学习一个分类器 $w:\hat{\mathcal H}\rightarrow \hat{\mathcal Y}$ 对 $e_{train}$ 进行分类（因为 $e_{train}$ 有label )

Domain Adaptation的关键点是，学习到了对两个环境鲁棒的特征表示，只要对其中一个分好类，那另一个自然也就能分类了。

先下个结论：这能很好地解决Example1，但无法解决Examples2。

为什么能区分 cause & effect ？回顾一下Example1

$\begin{array}{l} X_{1}^{e} \leftarrow \operatorname{Gaussian}(0,1) \\ Y^{e} \leftarrow X_{1}^{e}+\operatorname{Gaussian}(0,1) \\ X_{2}^{e} \leftarrow \beta(e) Y^{e}+\operatorname{Gaussian}(0,1) \end{array}$

对于两个环境有：

$X^{e_{train}}=\left(X_1^{e_{train}},X^{e_{train}}_2=\beta(e_{train})X_1^{e_{train}}+\beta(e_{train})\right)$

$X^{e_{test}}=\left(X_1^{e_{test}},X^{e_{test}}_2=\beta(e_{test})X_1^{e_{test}}+\beta(e_{test})\right)$

Representation ( $\Phi$ )需要满足第一步的条件即 $P^{e_{train}}(\Phi(X^{e_{{train}}}))=P^{e_{test}}(\Phi(X^{e_{test}}))$

为了维持 $\Phi(X^{e_{train}})与\Phi(X^{e_{test}})$ 在特征空间的不变性(invariance)， $\Phi$ 会丢弃掉因为 $\beta(e_{train}),\beta(e_{test})$ 而变动的 $X_2$ ，因此就捕捉到了环境的不变性特征 $X_1\sim \text{Gaussian}(0,1)$ 。

但对于Example2的问题模式 $(X_1,X_2)\rightarrow Y$ ，衡量的是相关性，即 $X_1，X_2$ 谁的cause效应是dominant的，这时Domain Adaptation就不适用了，因为它捕捉的是哪些特征是不变的，而不是衡量哪些特征是dominant的。

更悲剧的是，只要稍微改动一下Example1，Domain Adaptation就fail了，就不能找到问题模式 $X_1\rightarrow Y\rightarrow X_2$ 的cause&effect了，如下：

$\begin{aligned} X_{1} & \leftarrow \operatorname{Gaussian}(\mu(e), 1) \\ Y & \leftarrow X_{1}+\operatorname{Gaussian}(0,1) \\ X_{2} & \leftarrow \beta(e) Y+\operatorname{Gaussian}(0,1) \end{aligned}$

给 $X_1$ 也加个因环境而变动的量 $\mu(e)$ ，Domain Adaptation fails.

1.4 方法总结&全文中心点

In particular, we will see that in many cases we can obtain out of distribution generalization by looking for features whose correlation is invariant with the label across just a few training environments

OOD最理想的优化目标：
$\mathcal R^{OOD}(f) = \max_{e\in \mathcal E_{all}}R^e(f)$

Robust Optimization : 本质上是对不同环境加权平均，对来自更难环境的样本给予更多注意力，因此能衡量相关性，解决Example2
Distance Measure Matching：本质上是对训练环境与测试环境几何结构的利用，提高某种度量下邻近测试空间的鲁棒性，解决Example3
Domain Adaptation: 本质上是从不同环境中提取不变性表示，从而filter out effect，保留下cause，能解决简单版的Example1

那如何解决Example4?
$\begin{aligned} X_{1} & \leftarrow \operatorname{Gaussian}(\mu(e), 1) \\ Y & \leftarrow X_{1}+\operatorname{Gaussian}(0,1) \\ X_{2} & \leftarrow \beta(e) Y+\operatorname{Gaussian}(0,1) \end{aligned}$

本博士论文最关键的点来了：只需要 $P^e(Y^e|\hat{H^e})$ 在不同训练环境下保持不变

二、OOD的主要理论

简要背景介绍：

Casuality : 预测对象 $Y$ ，对Y所在的图结构 $(X, Y)$ 不断干预，找到Y所有cause组成的graph即因果图 $\text{Parent}(Y)$ ( Invariance under intervention )
Statistical Invariance : 在寻找Y的cause时，需要衡量分布差异的时候就得用到一些不变的统计特征进行比较。(Some statistical patterns are preserved across a series of distributions)
Out-of-distribution generalization：数据量越多，多样性越丰富，就越能找到对label robust的invariance，然后希望能挖掘 $\mathcal E_{train}$ 与 $\mathcal E_{all}$ 的问题结构(cause&effect, correlation, geometry)，使得从 $\mathcal E_{train}$ 中提取的关于label invariance能更少耗损地通过”问题结构““定向泛化”到 $\mathcal E_{all}$ ，或者说信息流动的更有效。

所以Casuality/Invariance/OOD之间的相互联系，都是围绕着这个问题“which statistical patterns are preserved across environments”

重要！：

第一个关键问题：如何从 $\mathcal E_{train}$ 从抽出invariance？(IRM–>IRMv1–>Representation function)
第二个关键问题：什么样的假设与理论可以保证 $\mathcal E_{train}$ 的invariance可以generalize到 $\mathcal E_{all}$ ？

论文的核心理论一：（针对第一个关键问题）
如果representation $\Phi$ 满足：

条件一：Approximate invariant prediction：
$D\left(\mathbb{P}^{e}\left(Y^{e} \mid \Phi\left(X^{e}\right)=\hat{h}\right), \mathbb{P}^{e^{\prime}}\left(Y^{e^{\prime}} \mid \Phi\left(X^{e^{\prime}}\right)=\hat{h}\right)\right) \leq \delta_{I N V}$
其中 $D$ 为Total variation distance(TVD)。条件一意思是，这个 $\Phi$ 可以让不同环境的样本 $X^e,X^{e'}$ 所投射的特征空间 $\Phi(X^e),\Phi(X^{e'})$ 对label的分布，在距离度量TVD下，是approximate invariant的，invariance被限制在 $\delta_{I N V}$ 的范围内。
条件二：Low training error：
$\mathbb{E}_{Y \sim \mathbb{P}^{t r a i n}(Y \mid \Phi(X)=\hat{h})}[\ell(w(\hat{h}), Y)] \leq \delta_{E R R}\quad\forall \hat h \in \hat{\mathcal H}$
条件二意思是，在某个fixed分类器 $w$ 下， $\Phi$ 使 $\mathcal E_{train}$ 的经验风险小于某个范围（能比较好地分类训练集的样本）

于是就有generalization的保证：

$\mathbb{E}_{(X, Y) \sim \mathbb{P}^{\text {test }}}[\ell(w(\Phi(X)), Y)] \leq \delta_{E R R}+C \delta_{I N V}$

论文的核心理论二：（针对第二个关键问题）

首先得假定： $\mathcal E_{all}$ 存在这样的invariance
其次， $\mathcal E_{train}$ 得有sufficient coverage，这样提取得到的invariance才能cover到 $\mathcal E_{all}$ 上的invariance

可能有人问，啊？这是啥理论？这只是一种最高度的理论抽象，具体理论细节看原文。

通俗解释一下这两个前提：
如果 $\mathcal E_{all}$ 本身就没有invariance，那这个问题就无解了。只能进行实例分析，没法general；
假设 $\mathcal E_{all}$ 有invariance的话，那关键问题就是 $\mathcal E_{train}$ 中提取到的invariance究竟能覆盖到多少？
比如数据生成过程本质由两个不变量 $\alpha(e),\beta(e)$ 控制，但训练集中收集到数据只能提取到一个不变量 $\beta(e)$ 。因此这就要求数据集有diverse environments，至少得都包含到这两个不变量吧，不然肯定没法更好地generalize。(强调diversity，“勉强理解”成invariance的维度)
其次，是样本复杂度的问题，为了提取到不变量 $\beta(e)$ ，需要的数据样本量有多少？假设满足diverse environments为 $e_1,e_2,...,e_n$ ，那每一个环境需要多少的样本才能较为准确地cover到真实 $\beta(e)$ 的分布呢？（强调每个环境的样本复杂度）

但现实是，只有一个unknown environment set产生的dataset。

一不知道具体生成数据的环境 $e_1,e_2...,e_n$ 具体是啥 ( $\beta(e)$ 的取值范围覆盖到了嘛?)
二不知道invariance具体是啥（维度自然靠猜）
三似乎也很难衡量怎样的数据分布才能满足diversity，每个diversity维度需要多少的样本复杂度才能准确捕捉到invariance的维度
四怎么量化？量化后能计算吗？

所以这些被浓缩成只要 $\mathcal E_{train}$ 有sufficient coverage，就能恢复不错的泛化性能。因此，需要做不同的假设。您说的假设具体是指什么？

对训练环境与测试环境所在空间的结构假设（使得invariance通过这个结构更容易从 $\mathcal E_{train}\rightarrow \mathcal E_{all}$ 进行泛化）联合假设
假设训练环境invariance的结构，使得我们更能容易捕捉invariance （这假设的结构捕捉的invariance是否有利于泛化，不清楚）训练假设
假设测试环境invariance的结构，使得泛化过去的空间是“定向的”（限制泛化的invariance空间)测试假设

下面就是提出的具体做法：

针对第一个问题，给出了Invariant Risk Minimization(IRM)的算法，来提取invariance，并给出了能捕捉到linear invariance的理论保证。并且评估了一下该方法捕捉Non-linear invariance的实验效果。(linear 与 non-linear就是invariance的结构呀)
针对第二个问题，具体分析了什么样的假设，需要多少"diverse environments"，能让invariance从 $\mathcal E_{train}\rightarrow \mathcal E_{all}$ ，给出了一堆假设下的定理（重在理解，推导看原文）。

2.1 如何学习一个好的Representation?

2.1.1 主要论点

直观的想法：这个representation在 $\mathcal E_{train}$ 中不仅有invariance而且预测好；
公式化该想法的目标IRM（Invariant Risk Minimization）：

$\begin{aligned} &\min _{\Phi: \mathcal{X} \rightarrow \hat{\mathcal{H}} \atop w: \mathcal{\hat{H}} \rightarrow \mathcal{Y}} \sum_{e \in \mathcal{E}_{\text {train }}} R^{e}(w \circ \Phi)\\ &\text { subject to } \quad w \in \underset{\bar{w}: \hat{\mathcal{H}} \rightarrow \hat{\mathcal{Y}}}{\arg \min } R^{e}(\bar{w} \circ \Phi)\quad\forall e \in \mathcal{E}_{\text {train }} \end{aligned}$

解释：对于每一个具体的任务环境 $e$ ，学习得到的representation使得经验风险损失的总和最小，其中分类器 $w$ 是在当前representation( $\Phi$ )中使得具体任务经验风险 $R^e(\bar w \circ \Phi)$ 最小的那个。每评估一个representation，就需要在 $|\mathcal E_{train}|=N$ 个环境上解一个min问题得到分类器 $w_1,w_2,...,w_N$ ，然后在representation space中找到使总体经验风险损失之和 $\sum_{e \in \mathcal{E}_{\text {train }}} R^{e}(w \circ \Phi)$ 最小的那个representation。（每次评估都需要解多个min分类器，满足约束，计算复杂度高，需要优化）

所以很自然的优化想法：假设线性结构的分类器（因为线性有解析式好求解），对 $w$ 分类效果不好的环境 $e$ 提供补偿以正确评估representation的总体效果。

公式化该优化的目标IRMv1：
$\min _{\Phi: \mathcal{X} \rightarrow \hat{\mathcal{Y}}} \sum_{e \in \mathcal{E}_{\text {train }}} R^{e}(\Phi)+\lambda \cdot\left\|\nabla_{w \mid w=1.0} R^{e}(w \cdot \Phi)\right\|^{2}$

解释：目的是得到一个representation function( $\Phi$ )，在固定住分类器 $w = 1.0$ 的情况下，根据对环境的分类效果进行补偿，用 $\lambda$ 进行控制.（言简意赅：软化了IRM对分类器 $w$ 的硬约束，以补偿的方式进行软约束限制）

但这个软约束后的优化目标只适合去捕捉linear invariance。因此有一些没解决的理论问题：

What are the benefits of enforcing non-linear invariances w belonging to larger hypothesis classes W?
How can we construct invariance penalties D for non-linear invariances?

2.2 什么样的假设可以保证representation的泛化？

主要罗列个人认为主要的定理，并进行理解，具体证明见原文。

2.2.1 三个概念之间的等价性（联合假设）

定理A.1 : Causality, invariance, and out of distribution generalization are equivalent when data satisfies a causal graph

因果性Causality是基于statistical invariance，来分清cause和effect，人为构建或数据学习得到一个Causal Graph，同时Causal Graph充当了 $\mathcal E_{train}$ 和 $\mathcal E_{all}$ 之间shared invariance的结构使其能解决Out-of-distribution generalization的问题。
如果数据没有Causal Graph的话，我认为它们是一种包含的关系Causality < Invariance < Out-of-distribution generalization.

Causality的关注点更多的是训练数据中的 $\mathcal E_{train}$ ；
Invariance关注的是 $\mathcal E_{train}$ 的invariance能cover到多少 $\mathcal E_{all}$ 的invariance；
Out-of-distribution generalization可以说是无解的，如果 $\mathcal E_{all}$ 的invariance就是没有 $\mathcal E_{train}$ 中的invariance的话，就没法解这个问题了

2.2.2 对训练环境 $\mathcal E_{train}$ 的结构假设

重点来说 $c^e(\Phi)$ 的第一项是最优的线性分类器，第二项是某个fixed的分类器，整个表达在当前fixed分类器 $w$ 来说，每个representation function离最优线性分类器 $w^*$ 的差距。

理解定理的含义：
现在有 $|\mathcal E_{train}|$ 个环境，每个环境 $e$ 产生维度为 $d$ 的样本 $X^e$ ，有一些representation function $\Phi$ 将样本映射到维度为 $p$ 的特征空间，且它们的雅可比矩阵满秩 $\nabla_x\Phi(x)$ 意味着这个映射 $\Phi$ 不会损失invariance的信息，这些可行的 $\Phi$ 可能有挺多的，隶属于一个 $q$ 维的泛函空间 $\mathcal F$ （逻辑链条： $e\rightarrow X^e\rightarrow \Phi\in \mathcal F\rightarrow h\in \mathcal H$ ，即环境产生样本，经过表征映射，到达特征空间）
而 $c^e(\Phi)$ 则是对于一个特定环境 $e$ 而言，representation function family(泛函)到 $p$ 维特征空间的映射，用来评估representation function $(\Phi)$ 的好坏。（一个环境，这些 $\Phi$ 的整体评估，用一个特征向量表示）
$F(\Phi)$ 是在 $|\mathcal E_{train}|$ 个环境下，对representation function family $(\Phi)\in \mathcal F$ 到特征空间的评估, 它们的雅可比矩阵 $\nabla_\Phi F(\Phi)$ 满秩表明，这个对representation family到特征空间的评估映射不损失invariance的信息。
最后就定义， $\mathcal E_{train}$ 的训练环境结构为nonlinear general position，它对样本到特征空间的映射转换不损失invariance信息，它对representation function family在特征空间的整体评估映射 $F(\Phi)$ 也不损失invariance信息。

2.2.3 $\mathcal E_{train}$ 泛化到 $\mathcal E_{all}$ 的前提假设

![2

如果存在满足invariance即 $\mathbb E[Y^e|\Phi^*(X^e)=\hat h]=w_*^T\hat h,\forall e\in \mathcal E_{all}$ 的representation function $\Phi^*$ 和分类器 $w_*^T$ （解的存在性假设），当训练环境是nonlinear general position的结构（训练结构假设）、分类器 $w$ 是linear的结构(线性分类器假设)、训练环境个数满足 $|\mathcal E_{train}>\frac{q}{p}|$ （训练环境个数的sufficient coverage），Representation function $\Phi$ 在 $\mathcal E_{train}$ 上对某个分类器 $w$ 不变时（说明提取到特征是合格的），那么就找到了在 $\mathcal E_{all}$ 上也能维持invariance的表征提取器 $\Phi^*$ ，从而可以找到该表征 $\Phi^*$ 下的最优线性分类器 $w_*$ ，它们在 $\mathcal E_{all}$ 上组成invariant predictor $w_*\circ\Phi^*$ ，泛化性能得以从理论上解决。

根据重点来提取出逻辑链：

假设解存在， $\mathbb E[Y^e|\Phi^*(X^e)=\hat h]=w_*^T\hat h,\forall e\in \mathcal E_{all}$ （不存在就没法做了）
对训练环境做结构假设，更容易提取到invariance
对分类器结构做线性假设简化，更容易进行理论分析（非线性的话，理论一般就能给出确定的度量，最多给个bound，但怎么给这个bound好像没分析出来）
基于上述两个结构假设，分析出了sufficient coverage的具体量化为 $\frac{q}{p}$ 个diverse environments的条件（条件一）
在训练环境上，在某个fixed分类器下，找到对label不变的表示函数 $\Phi_{train}$ (条件二）
那么这个 $\Phi_{train}$ 就是 $\mathcal E_{train}$ 与 $\mathcal E_{test}$ 共同share的invariant特征提取器，在这基础上找个最优线性分类器即可。

三、总结

其实这篇博士论文，最最最有用的并不是什么practical的algorithms，而是它给出的theory analysis是非常有启发性的。基本能对现在海量的paper做一个总结与归类，并抽象出了如何用Invariance来解决Out-of-distribution的启发。

尽管是初步的、线性的理论分析，但个人认为，非常经典、透彻、有启发性。对外推这个问题理解更为深入。下一篇文章，主要讲这个Out-of-distribution在具体问题上的泛化，以及具体问题具体方法是如何体现这个Invariance的，真的太妙了～

你可能感兴趣的:(ML,机器学习,外推,泛化能力)

燕云十六声武器心法搭配推荐燕云十六声心法怎么选择雷电云手机网络游戏
在《燕云十六声》中，武器与心法的搭配对战斗表现至关重要。以下是几种推荐的搭配方案：1.长剑+太极心法特点：攻守兼备，适合近战。推荐理由：太极心法提升防御和反击能力，配合长剑的灵活攻击，适合持久战。2.双刀+狂风心法特点：高攻速，爆发强。推荐理由：狂风心法增强攻击速度和暴击率，双刀的高频攻击能迅速压制敌人。3.长枪+破军心法特点：高伤害，适合中距离战斗。推荐理由：破军心法提升攻击力和破防效果，长枪的
Redis分片集群原理
1.为何需要分片集群？让我们先快速回顾一下Redis扩展的演进过程：单机Redis：最简单，但也最受限于服务器的物理资源（CPU、内存、网络带宽）。一旦宕机，服务完全中断。主从复制：通过设置一个主节点和多个从节点，实现了读写分离，提高了读并发能力，并提供了数据冗余以应对主节点故障。但所有数据仍存储在主节点上，内存容量和写性能依然受限于单个服务器，无法无限扩展。当业务数据量达到数十GB甚至TB级别，
XML 笔记 ddfa1234 xml 服务器
换行在XML中，用于定义一个CDATA节（CharacterDataSection）。CDATA节是用于将一段文本标记为不应当被解析器解析的字符数据。这意味着，在CDATA节内部的所有内容，包括特殊字符如,&等，都不会被当作标记来处理，而是作为纯文本数据对待。CDATA节的主要用途：包含大量特殊字符：当你需要在XML文档中包含大量的特殊字符（比如,&），而不想对这些字符进行转义时（例如<,&
PromptX 核心架构深度解析：DPML 标签框架的革命性设计
核心理念：让AI既是工具使用者，也是被工具赋能者-通过标准化的"标签框架"实现AI的即时专家化引言：标签框架背后的深刻洞察当我们深入探索PromptX项目中的tag目录时，会发现这不仅仅是几个技术规范文件，而是一套完整的AI认知架构系统。这五个标签框架文件构成了PromptX生态系统的"DNA"，定义了AI如何思考、如何行动、如何成为专业角色。今天，让我们从这些看似简单的标签定义开始，解析Prom
前端开发核心：HTML、CSS与JavaScript学习指南 Randy Rhoads
本文还有配套的精品资源，点击获取简介：HTML、CSS和JavaScript是前端开发的基础，分别负责网页的结构、样式和动态行为。学习这三种技术需要理解它们之间的关系及其协同工作的机制。本笔记提供了一个全面的复习资料，包括标签使用、CSS布局技巧、JavaScript基础语法和DOM操作，旨在帮助巩固知识点和发现潜在的学习盲点。同时，介绍了响应式设计、Web组件、ServiceWorker等现代前
Vue动态绑定Class与Style
一、动态绑定Class1.1对象语法v-bind:class指令是Vue.js中用于动态绑定CSS类的指令。它可以根据Vue实例中的数据来动态添加或移除HTML元素的类。这样可以根据数据的变化来动态改变元素的样式，实现更灵活的样式控制。语法class-name:要绑定的CSS类名condition:一个表达式，当为true时，class-name会被添加；当为false时，class-name会被
常见构建工具使用与原理浅析
1.初版构建工具1.1.GruntGrunt是前端第一个正式的构建工具，它基于Node.js开发。Grunt同样是基于插件实现功能拓展增强，但对于像Webpack上很多能力，如HMR、ScopeHoisting等都是不支持的，可以作为学习Webpack前的了解。Grunt更像是一种自动化的配置工具集，就如官方所说，Grunt是TheJavaScriptTaskRunner，每个Grunt任务通常必
在项目架构时，如何选择打包构建工具？ aiguangyuan 前端架构前端开发系统架构
在选择打包构建工具时，项目的具体需求、团队的技术栈、开发者的熟悉程度、以及项目的复杂度都是需要考虑的重要因素。1.项目规模与复杂度大型复杂项目：如果你的项目是一个大型复杂的单页应用程序（SPA），例如企业级应用，建议使用Webpack。Webpack的强大配置能力和丰富的插件生态系统能够满足复杂项目的各种需求，如代码拆分、缓存优化、懒加载等。中小型项目或库：如果是中小型项目或开发一个JavaScr
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
element ui表格data搜索重置功能 q249859693 elementui vue.js 前端
elementui表格搜索重置功能本地1.html搜索重置...2.datadata(){return{tabledata:[{name:1,id:1},{name:2,id:2}],//你的数据tabledata2:[],//空数据，后面会把筛选的数据加进去loading:false,//重置出现loading加载}}3.methodsgetsearch(){this.tabledata2=th
Go 语言实现本地大模型聊天机器人：从推理到 Web UI 的全流程雷羿 LexChien Go golang 机器人前端
接续Go-LLM-CPP专案，继续扩充前端聊天室功能一.专案目录架构：go-llm-cpp/├──bin/#第三方依赖│├──go-llama.cpp/#封裝GGUF模型推理（CGo）│└──llm-go/#prompt构建+回合管理（Go）│├──cmd/#可执行应用│└──main.go#CLI/HTTPserver入口点│├──config/│└──persona.yaml#人格模板（系统p
条件概率：不确定性决策的基石大千AI助手人工智能 Python #OTHER 决策树算法机器学习人工智能条件概率概率论
条件概率是概率论中的核心概念，用于描述在已知某一事件发生的条件下，另一事件发生的概率。它量化了事件之间的关联性，是贝叶斯推理、统计建模和机器学习的基础。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、定义与公式设(A)和(B)是两个随机事件，且(P(B)>0)：条件概率(P(A\midB))表示
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
TextTipsPlus 多行省略 + Tooltip 提示组件 JaysonJin 实用组件库 vue.js javascript 前端
TextTipsPlus多行省略+Tooltip提示组件✅功能亮点功能说明多行省略通过line-clamp控制显示行数，默认单行动态宽度支持传入width（数值或百分比/字符串）Tooltip超出显示自动判断是否超出容器，超出后显示完整tooltip插槽支持支持插入复杂结构（文本、图标、HTML等）i18n支持插槽和text均可支持$t()组件源码（TextTipsPlus.vue）{{$t(te
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
docker-compose 启动MongoDB后导入json数据观梦 docker-compose mongodb python docker shell
docker-compose启动MongoDB后导入json数据compose目录具体方法Dockerfilesetup.shdocker-compose.ymlcompose目录├──app│├──blueprints││├──common…│├──config.py│├──Dockerfile│├──main.py│├──requirements.txt│├──templates││├──…│
html 滑块按钮,纯css的滑块开关按钮吴君君 html 滑块按钮
之前在项目中使用滑块开关按钮，纯css写的，不考虑兼容低版本浏览器，先说下原理：使用checkbox的选中checked属性改变css伪类样式，一定要使用-webkit-appearance:none;先清除checkbox的默认样式，否则写其他的样式不起作用；好，不多说，直接上代码：css滑块开关.checke{position:relative;-webkit-appearance:none;
Django5.1（91）—— 如何删除一个 Django 应用小天的铁蛋儿 django Python django python 后端
如何删除一个Django应用Django提供了将一组功能组织成名为应用程序的Python包的能力。当需求发生变化时，应用程序可能会变得过时或不再需要。以下步骤将帮助你安全地删除一个应用程序。删除所有与该应用程序相关的引用（导入、外键等）。从相应的models.py文件中删除所有模型。通过运行makemigrations来创建相关的迁移。这一步会生成一个迁移，用于删除已删除模型的表，以及与这些模型相
纯CSS实现有趣emoji切换开关南城FE 前端CSS那些事南城前端专栏 css 前端
这是一个纯CSS创建的动画切换开关，它不仅能够在视觉上吸引用户，还能通过交互提供即时反馈。本文将解析源码的核心实现逻辑，这个项目的核心是使用CSS变量、3D变换和过渡效果来实现一个动态的、响应式的用户界面元素。关键技术点CSS变量：用于动态调整样式。3D变换：用于创建翻转动画效果。过渡效果：用于平滑地改变元素的样式。emoji：并不是真正的emoji而是通过CSS绘制。实现步骤1.HTML首先需要
SVG格式深度解析与Path应用实战：从原理到企业级全场景开发（实战版）
一、简介在数字图形领域，SVG（ScalableVectorGraphics）凭借其矢量特性、可编辑性和交互能力，成为现代设计和开发的核心工具。本文将从SVG的基础原理出发，深入解析其技术特性，并与主流图像格式（如JPEG、PNG、PLT等）进行对比分析。通过企业级应用案例，结合代码示例和Mermaid图表，帮助开发者全面掌握SVG的应用场景与开发技巧，实现从零到一的高效实践。二、SVG格式的核心
Python之聚合函数 _AndyLau 手把手学python python
Python聚合函数文章目录Python聚合函数聚合函数使用多个聚合函数结合`annotate`和`values`进行分组聚合注意事项F表达式和Q表达式F表达式Q表达式注意事项视图HTML中的表单概述Django中表单概述ModelForm关键点使用示例创建ModelForm在视图中使用ModelForm模板总结Cookie和SessionDjango中的Cookie操作Django中的Sessi
一：以理论结合实践方式梳理前端 React 框架 ——— 初识 React 框架十三餍 React 专栏 javascript es6 前端
初识React框架假设我们并不了解node&npm的情况下，使用最被大家熟知的方法：脚本引入方式，来开始学习react框架。官方文档：https://react.docschina.org/创建第一个应用管他三七二十一，先整一个项目再说：在你习惯放置学习代码的地方，建个目录（例：F:\wwwroot\react-demo），并建一个demo01.html，搭好html5格式：DocumentRea
Gradio全解13——MCP详解（2）——MCP能力协商与通信机制
Gradio全解13——MCP详解（2）——MCP能力协商与通信机制第13章MCP详解13.2MCP能力协商与通信机制13.2.1能力协商机制与消息规范1.能力协商机制2.消息规范及错误码13.2.2MCP通信机制1.协议层四种方法2.传输层机制：Stdio与StreamableHTTP3.Stdio与StreamableHTTP实战参考文献本章目录如下：《Gradio全解13——MCP详解（1）
无人机载重模块技术要点分析
一、技术要点1.结构设计创新双电机卷扬系统：采用主电机（张力控制）和副电机（卷扬控制）协同工作，解决绳索缠绕问题，支持30米绳长1.2m/s高速收放，重载稳定性提升。轴双桨布局：无人机采用8轴16桨+轴双桨结构，单轴推力提升40%，载重能力突破200kg，冗余设计保障单轴失效时平稳飞行。模块化快拆：碳纤维+航空铝材质实现减重20%且强度提升50%，桨叶5分钟内可更换，提升野外维护效率。2.安全与制
使用Node.js命令行进行编程翠绿探寻 node.js vim 编辑器编程
Node.js是一个基于ChromeV8JavaScript引擎构建的运行时环境，它可以让开发者使用JavaScript语言编写服务器端代码。Node.js命令行界面（CLI）是一个强大的工具，它提供了与Node.js交互和执行JavaScript代码的能力。在本文中，我们将介绍如何在Node.js命令行中使用JavaScript进行编程，并提供相应的源代码示例。1.安装Node.js首先，我们需
反向遍历--当你修改一个元素的outerHTML时，该元素会被从 DOM 中移除专注VB编程开发20年 html javascript
varspans=editor.querySelectorAll('span[mytag]');//将NodeList转换为数组//varspansArray=Array.from(spans);varid=0spans.forEach(span=>{span.outerhtml这里无法直接修改吗?}在JavaScript中，outerHTML是一个可写属性，但你需要注意以下几点：1.属性名大小写
VUE2双向绑定的原理许先森森 VUE2 javascript 前端 vue.js vue双向绑定 vue
文章目录VUE2双向绑定的原理1.什么是双向绑定2.双向绑定的原理2.1ViewModel的重要作用2.2双向绑定的流程3.双向绑定的实现3.1data响应化处理3.2Compile编译3.3依赖收集VUE2双向绑定的原理1.什么是双向绑定讲双向绑定先讲单项绑定，啥叫单项绑定，就是一句话就是通过Model去改变View，再直白点，就是通过js代码把数据改变后，html视图也跟着变化那双项绑定就很好
ASP.NET Web程序设计——WebPages 勤奋的菜鸟a ASP.NET web程序设计小笔记 asp.net
概述：移动互联网（MobileInternet，简称MI）是一种通过智能移动终端，采用移动无线通信方式获取业务和服务的新兴业务移动互联网被称为下一代互联网Web3.0移动互联网具有几个鲜明的特性：（1）便捷性和便携性（2）网络的局限性（3）即时性和精确性ASP.NETWebForms技术带来的负面效应:(1)由于控件封装了很多东西，开发者很难了解这背后的HTML是如何运作的;(2)容易得到一个包含
手机评论管理系统中奖秀晒图源码本套晒图源码（源码下载）
手机评论管理系统中奖秀晒图源码本套晒图源码采用mysql+html使用说明：测试环境：Nginx+PHP7.0+MySQL5.6评论管理后台访问：http://你的域名/review-admin.html评论列表首页：http://你的域名/mskhj.html源码下载：https://download.csdn.net/download/m0_66047725/91273788更多资源下载：关注
ASP.NET Web Pages - 教程 samFuB asp.net 前端后端
ASP.NET是一个使用HTML、CSS、JavaScript和服务器脚本创建网页和网站的开发框架。ASP.NET支持三种不同的开发模式：WebPages（Web页面）、MVC（ModelViewController模型-视图-控制器）、WebForms（Web窗体）：本教程介绍WebPages。WebPagesMVCWebForms从何入手？多数开发人员学习一个新技术，是从查看运行实例开始的。通
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio