River_J777

Zero-Shot Learning零样本学习学习进展汇总

基本概念
- 什么是zero-shot learning?
- 基本概念
- - 定义
  - 语义空间(Semantic Spaces)
  - - 工程语义空间(Engineered Semantic Spaces)
    - 学习语义空间(Learned Semantic Spaces)
- 最大后验概率
论文阅读（一）DAP&IAP
- 算法概要
- - 前提
  - 目标
  - 思路
- 具体原理
- - DAP(Directed attribute prediction)
  - IAP(Indirected attribute prediction)
论文阅读（二）EsZSL
- ESZSL算法概况
- - 背景
  - 前提
  - 思路
- 算法原理
- - 模型
  - 求解
  - - 损失函数 $L$
    - 正则化项 $\Omega$
  - 参考文献
论文阅读（三）SAE
- 背景
- - 领域漂移(domain shift)
  - 自编码器
- 算法原理
- - 思路
  - 设定
  - 算法原理
  - 具体流程
- 参考文献
论文阅读（四）DMaP
- 背景
- - 流形学习
  - 语义间隔
- 算法原理
- - 算法思路
  - 符号设定
  - 算法流程
论文阅读（五）DeViSE
- 背景
- - Skip-gram
- 算法
- - 算法思路
  - 原理
- 参考文献
论文阅读（六）f-CLSWGAN
- 背景
- - 生成对抗网络GAN
- 算法模型
- - 思路
  - 模型
- 参考文献
论文阅读（七）Unsupervised Domain Adaptation
- 背景
- - 字典稀疏学习
- 算法模型
- - 算法思路
  - 设定
  - 算法原理
- 参考文献

基本概念

最近刚入门学习零样本学习的相关内容，本次的笔记列出了一些零样本学习领域相关的概念，只有理解了这些概念才能更顺畅地阅读和理解文献。

什么是zero-shot learning?

一言以蔽之，zero-shot learning零样本学习就是让学习器对其从来没有见过的类别进行分类。比如：给学习器一堆马和老虎的图片进行训练，训练完毕后，我们输入一张斑马的照片，并希望学习器告诉我们“这是斑马！”。乍一听，这显然是不现实的。
但其实，我们输入的训练数据与希望识别的类别的并不会是完全无关的。显然，我们不会奢求学习器学习一些人脸、飞机等与斑马毫无关联的数据就可以在第一次看到斑马的图片的时候就能够识别出这是一匹斑马。另外，我们还会在零样本学习的过程中利用一些已有的知识，比如“斑马的外形像马，身上有条纹”。像这样，根据现有的马、老虎的照片以及“斑马的外形像马，身上有条纹”这条信息，我们尝试让学习器通过马的数据可以识别出马的外形，通过老虎的数据让学习器可以识别出动物身上的条纹，如果学习器发现一张输入的照片有马的外形+身上有条纹，那么学习器就有足够的信心认为这就是斑马，即使它之前从未见到过斑马的照片。怎么样，是不是刚才无厘头的ZSL任务，现在变得有了一些头绪～

基本概念

定义

上面用通俗易懂的语言介绍了ZSL，下面我们给出一些在正式学习之前需要了解的概念。

特征空间(feature space)
输入的具体的实例通常用特征向量表示，所有特征向量存在的空间就称为特征空间.
可见类 & 不可见类(seen classes & unseen classes)
在ZSL问题中，特征空间(feature space)包含一些带标签的训练实例，这些实例所涵盖的的类别就称为可见类(seen classes)；同时，特征空间中还包含一些不带标签的测试实例，这些实例所属的类别称为不可见类(unseen classes).
接着我们就可以给出ZSL的具体定义：
Zero-Shot Learning
对于给定属于可见类集合 $S$ 的测试实例 $D^{tr}$ 以及属于不可见类集合 $U$ 的测试实例 $X^{te}$ ， Zero-Shot Learning目标是学习一个分类器 $f^u(\cdot):X\rightarrow U$ ，使得可以预测不可见类的测试实例的类别.

语义空间(Semantic Spaces)

Zero-Shot Learning中不可或缺的一部分就是有关类的语义信息，比如上文提到的“不可见类斑马的外形像马，身上有条纹”，这些有关类的语音信息构成了语义空间.我们可以将 Zero-Shot Learning中用到的语义空间根据构造方法分为工程语义空间和学习语义空间。

工程语义空间(Engineered Semantic Spaces)

在工程语义空间中，每个维度的信息都是由人工设计的，接下来是几个 Zero-Shot Learning经常用到的工程语义空间。

属性空间(Attribute spaces)
属性空间是由一组属性构成的语义空间。在属性空间中，描述类的各种属性的术语列表被定义为属性。每个属性通常是短语或词语，如在动物识别的任务中，身体颜色(“黄色”“白色”等等)、栖息地(“陆地”“海洋”“沙漠”等等)都是属性，属性的集合就构成了属性空间。
我们还能在论文中看到的一个词prototype，翻译过来是原型，对于每个类，对应原型的每个维度的值由该类是否具有对应的属性决定。比如，若我们构建的属性空间中包含三个属性，“有条纹”“生活在陆地”和“食草的”，那么对于“老虎”这一类三个属性的对应值分别为1、1、0，那么就可以构成原型[1,1,0].
词汇空间(Lexical Space)
词汇空间是由一组词汇项构造的各种语义空间。词汇空间基于可以提供语义信息的类和数据集的标签。数据集可以是一些结构化的词汇数据库，例如WordNet.
文本关键字空间(Text-keyword Spaces）
文本关键字空间是一种由从每个类的文本描述中提取的一组关键字构成。在文本关键字空间中，文本描述的最常见来源是网站，包括维基百科等一般网站和特定于域的网站。例如，任务是图像中的zero-shot flower识别，因此使用植物数据库和植物百科全书（其特定于植物）来获得每个花类的文本描述。除了预定义的网站之外，还可以从搜索引擎获得这样的文本描述。
此外，还有一些基于特定问题的空间(Some problem-specific spaces)。

基于以上工程语义空间的概念，我们可以发现工程语义空间的优点是通过语义空间和类原型的构建，灵活的编码人类领域知识；缺点是严重依赖人来执行语义空间和类原型工程。例如，在属性空间中，属性设计需要手工完成，这需要领域专家付出巨大努力。

学习语义空间(Learned Semantic Spaces)

在学习语义空间中，每个类的原型都是通过学习输出中获得。但是，在这些原型中，每个维度都没有明确的语义，而是语义信息包含在了整个原型中。用于提取原型的模型可以进行预先训练。

标签嵌入空间(Label-embedding Spaces)
标签嵌入空间是一类通过嵌入类标签来获得类原型的语义空间。可以利用在NLP领域已经得到了广泛的发展和应用的单词嵌入技术。单词嵌入技术中，单词和短语作为向量被嵌入到实数空间中。
有关词嵌入技术，可以看一下这个链接的介绍.
https://www.pianshen.com/article/4510216822/
文本嵌入空间(Text-embedding spaces)
文本嵌入空间通过嵌入每个类的文本描述来获得类原型的语义空间。与文本关键字空间类似，文本嵌入空间中的语义信息也来自文本描述。不同的是，文本嵌入空间是通过一些学习模型将每个类的文本描述用作模型的输入，输出向量被视为该类的原型。
图像表示空间(Image-representation spaces)
图像表示空间是通过每个类的图像来获得类原型的语义空间。

学习语义空间的优势在于需要较少的人工介入，可以照顾到一些很可能被人类忽略的语音信息；不足之处也很明显，语义空间每个维度的语义都是隐式的。

本篇文章部分内容来自于2019年的一篇综述A Survey of Zero-Shot Learning: Settings, Methods, andApplications.

最大后验概率

最大后验估计MAP是最常用的几个参数点估计之一，基本原理由贝叶斯定理而来，先看贝叶斯公式：
$P\left(\theta \mid \boldsymbol x\right)=\frac{P\left(\boldsymbol x \mid \theta\right) P\left(\theta\right)}{P(\boldsymbol x)}$
其中，我们将 $P\left(\theta\right)$ 称为先验概率，即在事情发生之前，根据以往的经验等推测未来此事件发生的概率；将 $P\left(\theta\right|\boldsymbol x)$ 称为后验概率，即在事情发生之后，分析由各种原因导致发生的概率。
$P\left(\boldsymbol x \mid \theta\right)$ 就是极大似然估计MLE的式子。
贝叶斯分类器就是根据先验概率利用贝叶斯公式计算出各种分类的后验概率，选择最大的后验概率所对应的分类结果。
贝叶斯公式可以形象的写成：
$\text{后验概率}=\frac{\text{似然函数}\cdot\text{先验概率}}{\text{数据分布}}$
最大后验估计MAP就是将后验概率取得最大值时待估参数 $\theta$ 的值 $\hat\theta$ 作为参数的点估计。
这里 $P (X)$ 与参数 $\theta$ 没有关系，因此我们只要求分子最大即可，即
$\begin{aligned} \hat{\theta}_{M A P} &=\operatorname{argmax}_{\theta} \frac{p(X \mid \theta) p(\theta)}{p(X)} \\ &=\operatorname{argmax}_{\theta} p(X \mid \theta) p(\theta) \\ &=\operatorname{argmax}_{\theta}\{L(\theta \mid X)+\log p(\theta)\} \\ &=\operatorname{argmax}_{\theta}\left\{\sum_{x \in X} \log p(x \mid \theta)+\log p(\theta)\right\} \end{aligned}$

论文阅读（一）DAP&IAP

Learning to detect unseen object classes by between-class attribute这篇文章首次提出了Zero-shot Learning这一问题的概念，并给出了基于物体属性的解决方法。

算法概要

前提

$(x_1,l_1),\cdots,(x_n,l_n)$ 为训练样本 $x$ 和相应类别标签 $l$ ，这样的成对数据共有 $n$ 组， $l$ 中一共有 $K$ 类，用 $Y=\{y_1,\cdots,y_K\}$ 表示， $Z=\{z_1,\cdots,z_L\}$ 为测试集中所包含的 $L$ 个类别，这里 $Y$ 和 $Z$ 就分别是可见类和不可见类，二者之间没有交集.

目标

学习一个分类器： $f:X\rightarrow Z$ ，也就是通过学习分类器，找到训练数据 $x$ 和相应可见类别标签 $l$ 与位置类别标签 $Z$ 之间的关系。

思路

通过建立一个人工定义的属性层A，这个属性层是高维的、可以表征训练样本的各项特征，比如颜色、条纹等，目的是将基于图片的低维特征分类器转化到一个表征高维语义特征的属性层。这样可以使得分类器分类能力更广，具备突破类别边界的可能。
基于这个思路，作者提出了两种方法，分别是DAP和IAP.

具体原理

DAP(Directed attribute prediction)

如下图，DAP在样本和训练类别标签之间加入了一个属性表示层A， $a$ 为 $M$ 维属性向量 $(a_1,\cdots,a_M)$ ，每一维代表一个属性，且在 ${0,1\}$ 之间取值，对于每个标签都对应一个M维向量作为其属性向量（原型）。通过训练集 $X$ 的对应属性进行训练，学习得到属性层的参数 $\beta$ ，之后便可以得到 $P (a ∣ x)$ ，
将输入测试实例x输出的标签作为待估计的参数，对于测试实例x，即可利用MAP的思想，找出概率最大的类为输出的估计类。

MAP的原理见此链接https://blog.csdn.net/River_J777/article/details/111500068

z的后验概率为：
$\mid x)=\sum_{a \in\{0,1\}^{M}} p(z \mid a) p(a \mid x)$
根据贝叶斯公式：
$=\sum_{a \in\{0,1\}^{M}} \frac{p(a \mid z) p(z)}{p(a)} p(a \mid x)$
根据文章中的假设前提各个维度属性条件独立（这个假设有点过强也是DAP主要问题所在）
$=\sum_{a \in\{0,1\}^{M}} \frac{p(a \mid z) p(z)}{p(a)} \prod_{m=1}^{M} p\left(a_{m} \mid x\right)$
根据Iverson bracket $[[x]]$ ，若其中语句为真则为1，否则为0，得 $\mid z)=\left[\left[a=a^{z}\right]\right]$ ，可得：
$=\sum_{a \in\{0,1\}^{M}} \frac{p(z)}{p(a)}\left[\left[a=a^{z}\right]\right] \prod_{m=1}^{M} p\left(a_{m} \mid x\right)$
由DAP的图模型知 $p\left(a^{z}\right)=p(a)$ ，可得：
$=\sum_{a \in\{0,1\}^{M}} \frac{p(z)}{p\left(a^{z}\right)}\left[\left[a=a^{z}\right]\right] \prod_{m=1}^{M} p\left(a_{m} \mid x\right)$
整理得：
$=\frac{p(z)}{p\left(a^{z}\right)} \sum_{a \in\{0,1\}^{M}}\left[\left[a=a^{z}\right]\right] \prod_{m=1}^{M} p\left(a_{m} \mid x\right)$
省略掉为零的项：
$=\frac{p(z)}{p\left(a^{z}\right)} \prod_{m=1}^{M} p\left(a_{m}^{z} \mid x\right)$
表示出z的后验概率后，对于输入测试实例x进入分类器后，分别测试不可见标签集 $z_1,\cdots,z_l$ ，求最大：
$f(x)=\operatorname{argmax}_{l=1,2, \ldots \ldots L \frac{p(z)}{p\left(a^{z_{l}}\right)}} \prod_{m=1}^{M} p\left(a_{m}^{z_{l}} \mid x\right)$
根据属性之间独立：
$=\operatorname{argmax}_{l=1,2, \ldots . . L} \frac{\prod_{m=1}^{M}p\left(a_{m}^{z_{l}} \mid x\right)}{\prod_{m=1}^{M}p\left(a_{m}^{z_{l}}\right)}$
$=\operatorname{argmax}_{l=1,2, \ldots . . L} \prod_{m=1}^{M} \frac{p\left(a_{m}^{z_{l}} \mid x\right)}{p\left(a_{m}^{z_{l}}\right)}$
$f (x)$ 的输出即为对于输入x的预测标签.

IAP(Indirected attribute prediction)

区别于DAP，DAP的PGM中属性层是在实例层和标签层（包括可见和不可见）之间，而IAP则是将属性层置于可见标签层与不可见标签层之间，用来迁移可见类标签与实例的信息到不可见标签层。

原理和DAP类似，此时的后验概率为：
$p\left(a_{m} \mid x\right)=\sum_{i=1}^{K} p\left(a_{m} \mid y_{k}\right) p\left(y_{k} \mid x\right)$
得到这个后验后，再求出z的后验，即可如同DAP中一样应用MAP即可.

论文阅读（二）EsZSL

这篇论文提出了一种新的zero-shot learning方法“Embarrassingly simple Zero-Shot Learning”，后来被简写作EsZSL。之所以叫做“embarrassingly simple”，是因为这种新方法只需要一行代码就可以实现，而且在zero-shot learning的几个标准数据集上的表现要优于当时最先进的方法。

ESZSL算法概况

背景

在本篇论文之前zero-shot learning相关的文章更多关注点是attribute learning，从训练实例中提取标签属性，直至《Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer》首次定义了Zero-shot learning并且提出了DAP、IAP，尽管DAP这种方法在一些方面得到应用和进一步研究，但是其弊端也比较明显，主要体现在两方面，一方面是他无法对输出的预测给出可靠性度量，二是算法做出了一些过强的假设，尤其是“各属性之间条件独立”，比如“是否生活在陆地”“是否生活在农场”这两个属性显然不是互相独立的。

前提

假设一共有z个类，其中每个类对应于属性空间中的a维属性向量，称为某个类的signature；集合的所有类用矩阵表示就是属性空间 $\in [ 0,1 ] ^{a\times z}$ ；有m个实例，维度为d维，写成矩阵形式 $\in R^{d\times m}$ ，实例的标签 $Y=\{-1,1\}^{m\times z}$ .

思路

在实例空间X和和标签空间Y中间添加一个属性空间，并且通过一个新的映射 $V$ 连接属性空间和特征空间，最后建立损失函数.

算法原理

模型

从一个一般的线性分类器的原理开始，以岭回归为例，其优化过程就是：
$min_wL(X^TW,Y)+\Omega(W)$
其中 $L$ 为损失函数， $\Omega$ 为正则化项.
为了实现zero-shot learning，中间添加一个属性空间 $S$ ，通过映射 $V$ 连接属性空间 $S$ 和特征空间 $X$ ，即
$\quad V \in R^{d \times a}$
那么上式就变为
$\min _{V} L\left(X^{\top} V S, Y\right)+\Omega(V)$
通过学习得到参数 $V$ 后，输入新的 $x$ 和 $S^*$ ，就可以根据 $argmax_i\quad x^TVS^*_{\cdot ,i}$ 确定预测的类别。

求解

上面得到的式子
$\min _{V} L\left(X^{\top} V S, Y\right)+\Omega(V)$
由两部分组成，一部分是损失函数 $L$ ，另一部分是正则化 $\Omega$ .

损失函数 $L$

损失函数 $L$ 论文中直接定义为Frobenius范数的形式： $L(P, Y)=\|P-Y\|_{F r o}^{2}$

正则化项 $\Omega$

对于正则化项的选择，作者有两点考虑：

应该包含对于 $V S$ 的约束，是因为 $V S$ 代表属性空间中的向量在特征空间中的投影，对 $V S$ 加以约束，理想上保证了所有signature在特征空间里在空间离有相似的欧几里得范数，能够更公平的比较不同的signature，同时能够防止由于高度不平衡数据引发的问题。
还应该包含对 $V^TX$ 的约束，是因为 $V^TX$ 是所有训练实例 $X$ 在属性空间中的表征，对于 $V^TX$ 进行约束，可以限制其方差，使其在训练特征分布中拥有足够的不变性，如同传统的ridge和lasso一样，提高模型在不同的测试特征分布中的泛化性。

以此，可以设定：
$\Omega(V)=\gamma\|V S\|_{F r o}^{2}+\lambda\left\|X^{\top} V\right\|_{F r o}^{2}+\beta\|V\|_{F r o}^{2}$
其中 $\gamma, \lambda, \beta$ 为超参数，此处不妨设 $\beta=\lambda \gamma \quad$ ，后面会用到.

综合损失函数和正则化项，目标函数现在可以具体得到：
$min\left\|X^{\top} V S-Y\right\|_{F r o}^{2}+\gamma\|V S\|_{F r o}^{2}+\lambda\left\|X^{\top} V\right\|_{F r o}^{2}+\beta\|V\|_{F r o}^{2}$
显然这是一个凸函数，因此我们可以直接对需要优化的参数 $V$ 求导，令导函数为零，求解V即可。
将 $min\{\left\|X^{\top} V S-Y\right\|_{F r o}^{2}\}+\{\gamma\|V S\|_{F r o}^{2}+\lambda\left\|X^{\top} V\right\|_{F r o}^{2}+\beta\|V\|_{F r o}^{2}\}$
写作两部分 $m i n A + B$
$\frac{\partial A}{\partial V}=\frac{\partial\left\|X^{\top} V S-Y\right\|_{F r o}^{2}}{\partial V}$
由Frobenius范数定义 $\|X\|_{F r o}^{2}=\operatorname{tr}\left(X^{\top} X\right)$ ，得到

$=\frac{\partial t r\left(\left(X^{\top} V S-Y\right)^{\top}\left(X^{\top} V S-Y\right)\right)}{\partial V}$
计算矩阵的转置并展开括号：
$=\frac{\partial \operatorname{tr}\left(S^{\top} V^{\top} X X^{\top} V S+Y^{\top} Y-S^{\top}V^{\top}XY-Y^{\top} X^{\top} V S\right)}{\partial V}$
根据迹的性质 $\quad tr(AB)=tr(BA)$ :
$=\frac{\partial \operatorname{tr}\left(S^{\top} V^{\top} X X^{\top} V S+Y^{\top} Y-2 Y^{\top} X^{\top} V S\right)}{\partial V}$
省略与 $V$ 无关的项：
$=\frac{\partial \operatorname{tr}\left(S^{\top} V^{\top} X X^{\top} V S-2 Y^{\top} X^{\top} V S\right)}{\partial V} \quad\left(\right.$
根据迹的性质 $t r (A B) = t r (B A)$ :
$=\frac{\partial \operatorname{tr}\left(VS S^{\top} V^{\top} X X^{\top} -2VS Y^{\top} X^{\top}\right)}{\partial V}$
根据： $\frac{\partial \operatorname{tr}(A B)}{\partial A}=B^{T}$ ， $\frac{\partial \operatorname{tr}\left(A B A^{T} C\right)}{\partial A}=C A B+C^{T} A B^{T}$

（证明：
$\frac{\partial \operatorname{tr}(A B)}{\partial A}=\frac{\partial \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i j} b_{j i}}{\partial \sum_{i=1}^{m} \sum_{j=1}^{n} a_{i j}}=\sum_{i=1}^{m} \sum_{j=1}^{n} b_{j i}=B^{T}$

$\frac{\partial t r\left(A B A^{T} C\right)}{\partial A}=\frac{\partial t r\left(A^{T} C A B\right)}{\partial A} \begin{array}{l} =\left(B A^{T} C\right)^{T}+C A B =C^{T} A B^{T}+C A B \end{array})$
最终得到
$X^{\top} V S S^{\top}-2 X Y S^{\top}$

参考文献

[1]Romera-Paredes B , Torr P H S . An embarrassingly simple approach to zero-shot learning[C]// Proceedings of the 32nd international conference on Machine learning (ICML '15). JMLR.org, 2015.

论文阅读（三）SAE

Semantic Autoencoder for Zero-Shot Learning提出的算法被简称为SAE，首次引入了自编码器结构，一定程度上解决了zero-shot learning中主要问题之一的领域漂移(domain shift)问题，直接导致之后的新方法大都采用了这种自编码器的结构。

背景

领域漂移(domain shift)

领域漂移问题首次被提出是在《Transductive Multi-View Zero-Shot Learning》这篇文章中，简单来说就是同一属性在不同的类别中，视觉特征的差异可能很大。比如，斑马和猪都有尾巴，那么在类别语义表示中，对于“有尾巴”这一属性，斑马和猪都是值“1”，但是在图片数据中，两者尾巴的视觉特征却差异很大，如果用猪的图片来训练，需要预测的是斑马，就很难达到预期的目标。

自编码器

自编码器（Autoencoder）是一种利用反向传播算法使得输出值等于输入值的神经网络，它先将输入压缩成潜在空间表征，然后通过这种表征来重构输出。
例如，我们输入一张图片，通过encoder将其现压缩成潜在表征(Latent Representation)，再通过decoder将潜在表征重构成图片作为输出。

因此，自编码器由两部分组成：

编码器，将输入压缩成潜在空间表征，用函数 $h = f (x)$ 表示；
解码器，重构潜在空间表征得到输出，用函数 $s = g (h)$ 表示。

自编码器就可以用函数 $g (f (x)) = s$ 表示， $x$ 是输入， $s$ 是输出，让 $x$ 和 $s$ 相近。
那么，让输出和输入的东西一样，那这个自编码器还有什么用呢？
其实，我们的目的在于，通过训练输出值等于输入值的自编码器，让潜在表征 $h$ 作为有价值的属性。
通常，为了从自编码器获得有用特征，我们会限制h的维度使其小于输入x，使得自编码器能学习到数据中最重要的特征。

算法原理

思路

在传统的自编码器的目标函数 $min_{W,W^*}\|X-W^*WX\|^2_F$ 中，为了使中间层能够表征属性，在这个目标函数中加入一个约束 $W X = S$ ， $S$ 为属性对应的语义向量，即 $min_{W,W^*}\|X-W^*WX\|^2_F,s.t.WX=S$ ，以此来最优化求解。

设定

$\quad X \in R^{d * N}$ 代表 $d$ 维共 $N$ 个特征向量组成的矩阵，投影矩阵 $\in R^{k * d},$ 将特征向量投影到语义空间, 得到latent representation $\in R^{k * N},$ 假设 $k < d k，通过一个投影矩阵 W ∗ ∈ R k ∗ d , W^{*} \in R^{k * d}, 将语义向量投影到特征空间。 Y = { y 1 , y 2 , … … y s } Y=\left\{y_{1}, y_{2}, \ldots \ldots y_{s}\right\} 为s个可见类标签的标签向量, Z = { z 1 , z 2 , … … , z u } Z=\left\{z_{1}, z_{2}, \ldots \ldots,z_{u}\right\} 为u个不可见类标签的标签向量, Y ∩ Z = ϕ Y \cap Z=\phi 。 S Y = { s 1 , s 2 , … . s s } S_{Y}=\left\{s_{1}, s_{2}, \ldots . s_{s}\right\} 为可见类标签的prototype的集合, S Z = { s 1 , s 2 , … . . s u } S_{Z}=\left\{s_{1}, s_{2}, \ldots . . s_{u}\right\} 为不可见类标签的prototype的集合, X Y = { ( x i , y i , s i ) } ∈ R d ∗ N X_{Y}=\left\{\left(x_{i}, y_{i}, s_{i}\right)\right\} \in R^{d * N} 为拥有N个k维训练样本 x i x_{i} 的训练集,测试集 X Z = { ( x i , y i , s i ) } X_{Z}=\left\{\left(x_{i}, y_{i}, s_{i}\right)\right\} 其中 y i , s i y_{i}, s_{i} 未知.$

算法原理

上图表示了本文中的自编码器结构，以传统的自编码器的思想，本问题的目标函数为 $min_{W,W^*}\|X-W^*WX\|^2_F$
为了使中间层能够表征属性，在这个目标函数中加入一个约束 $W X = S$ ， $S$ 是实现定义好的属性对应的语义向量，目标函数为： $min_{W,W^*}\|X-W^*WX\|^2_F,s.t.WX=S$
考虑到zero-shot learning旨在提高大规模计算机视觉的速度，为了减少参数数量，设置 $W^*=W^T$ ，则目标函数可以化为：
$min_{W}\|X-W^TS\|^2_{Fro},s.t.WX=S$
显然，约束 $W X = S$ 有点过于强了，所以将其变为一个软约束加入目标函数：
$min_{W}\|X-W^TS\|^2_{Fro}+\lambda \|WX=S\|^2_{Fro}$
其中， $\lambda$ 为超参数
显然这是一个凸优化问题，通过对 $W$ 求导，令导数为零，求解 $W$ 即可。
$\frac{\partial\left(\left\|X-W^{\top} S\right\|_{F r o}^{2}+\lambda\|W X-S\|_{F r o}^{2}\right)}{\partial W}$
$=\frac{\partial\left(t r\left(\left(X^{\top}-S^{\top} W\right)^{\top}\left(X^{\top}-S^{\top} W\right)+\lambda(W X-S)^{\top}(W X-S)\right)\right)}{\partial W}$
$=\frac{\partial\left(t r\left(W^{\top} S S^{\top} W-2 W^{\top} S X^{\top}+\lambda\left(X^{\top} W^{\top} W X-2 S^{\top} W X\right)\right)\right.}{\partial W}$
$=\frac{\partial t r\left(W^{\top} S S^{\top} W\right)}{\partial W}-2 \frac{\partial t r\left(W^{\top} S X^{\top}\right)}{\partial W}+\lambda \frac{\partial t r\left(X^{\top} W^{\top} W X\right)}{\partial W}-2 \lambda \frac{\partial t r\left(S^{\top} W X\right)}{\partial W}$
$=\frac{\partial t r\left(X^{\top} S W\right)}{\partial W}+\lambda \frac{\partial t r\left(W X X^{\top} W^{\top}\right)}{\partial W}-2 \lambda \frac{\partial t r\left(X S^{\top} W\right)}{\partial W}$
$S^{\top} W-2 S X^{\top}+2 \lambda W X X^{\top}-2 \lambda S X^{\top}$
$= 0$
令 $S^{\top}, B=\lambda X X^{\top}, C=(1+\lambda) S X^{\top}$
则等式可以写作：
$\quad A W+W B=C$
此为著名的Sylvester方程的标准形式，可利用Bartels-Stewart algorithm求解，值得注意的是，Bartels-Stewart algorithm算法的复杂度为 $o(d^3)$ ,与训练集大小无关，因此在大规模数据集上同样可以表现优异。

具体流程

对于测试特征向量 $x_i$ ，有两种方式给出预测，其中距离度量记作 $D (x, y)$

$S_{Z_{j}}$ 为未见类标签集中第 $j$ 个类在属性空间中对应的属性向量，也就是原型prototype
$\Phi\left(x_{i}\right)=\operatorname{argmin}_{j} D\left(W x_{i}, S_{Z_{j}}\right)$
$s_{i}$ 为不可见标签集中的一个元素
$\Phi\left(x_{i}\right)=\operatorname{argmin}_{j} D\left(x_{i}, W s_{j}\right)$
$\Phi\left(x_{i}\right)$ 的值为输出的预测值。

实验结果表明两种形式输出非常相似。

参考文献

[1]Kodirov E , Xiang T , Gong S . Semantic Autoencoder for Zero-Shot Learning[J]. 2017.

论文阅读（四）DMaP

这篇2017年的论文提供了解决semantic gap问题的简单做法，所谓的semantic gap也就是从图片中提取的低层特征到高层语义之间存在的“语义鸿沟”问题。这与上一篇论文提到的领域漂移问题都是zero-shot learning技术瓶颈问题之一。

背景

流形学习

首先，什么是流形？
流形(manifold)是局部具有欧式空间性质的空间，包括各种纬度的曲线曲面，例如球体、弯曲的平面等。流形的局部和欧式空间是同构的。
流形学习（manifold learning）是机器学习、模式识别中的一种方法，在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维，使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设，即某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。

语义间隔

样本的特征往往是视觉特征，比如用深度网络提取到的特征，而语义表示却是非视觉的，这直接反应到数据上其实就是：样本在特征空间中所构成的流型与语义空间中类别构成的流型是不一致的。而语义间隔问题就是样本在特征空间中的流形与语义空间中的类别构成的流形是有差异的。解决此问题的思路便是将二者的流型调整至一致。

算法原理

算法思路

要解决的问题是将特征空间中的流形与语义空间中的类别构成的流形，最简单的思路便是将类别的语义表示调整到样本的流形，即用类别语义表示的K近邻样本点重新表示类别语义。

符号设定

可见（训练）标签集 $L_{s}=\left\{l_{s}^{1}, l_{s}^{2} \ldots \ldots l_{s}^{m}\right\}$ (共有 $m$ 个类) ，其在语义空间中对应的prototype集为 $K_{s}=\left\{k_{s}^{1}, k_{s}^{2} \ldots \ldots k_{s}^{m}\right\}$ ；
不可见 (测试) 标签集 $L_{u}=\left\{l_{u}^{1}, l_{u}^{2} \ldots \ldots l_{u}^{l}\right\}$
(共 $l$ 个类) ，其在语义空间中对应的prototype集为 $ $K_{u}=\left\{k_{u}^{1}, k_{u}^{2} \ldots \ldots k_{u}^{l}\right\}$ ;
特征表征集 $X_{s}=\left\{x_{1}, x_{2} ,\ldots \ldots, x_{n}\right\}$ ,其中 $x_{i}$ 对应第 $i$ 个图像的提取特征；
训练集 $D_{s}=\left\{\left(x_{i}, y_{i}, k_{i}\right)\right\}_{i=1}^{n}, \quad x_{i} \in X_{s}$ , $y_{i} \in L_{s}$ .

算法流程

训练：

使用传统的方法求解特征空间到属性空间的映射 $f_{s}$ ,即求解投影矩阵 $W$
$W=\operatorname{argmin}_{W} l\left(W X, K_{s}\right)+\Omega(W)$
其中 $l (X, Y)$ 为损失函数, $\quad \Omega(W)$ 为正则化项
对于所有的 $k_{s}^{i}$ ,对所有的训练样本在语义空间的投影 $\left\{f_{s}\left(x_{i}\right)\right\}_{i=1}^{n}$
求m（m为超参数) 个最近邻，并赋值: $\tilde{k}_{s}^{i}=\frac{1}{m} \sum_{m \text{个}k_{s}^{i} \text { 的最近邻 }} f_{s}\left(x_{i}\right)$
并用 $\tilde{k}_{s}^{i}$ 构建新的语义空间 $\tilde{s}$
反复迭代1，2直至收敛.

测试：
对于测试特征矩阵 $X_{u},$ 如同step2，对于所有的 $k_{u}^{i}$ 求m个最近邻并赋值构建新的语义空间，并一样进行迭代，最后得到最终的映射 $\tilde{f}_{s}, \tilde{u},$ 再通过余弦距离输出预测：
$j=\operatorname{argmin}_{j} d\left(f_{s}\left(x_{j}\right), \quad k_{c}\right)$

论文阅读（五）DeViSE

这篇2013年的文章提出了DeViSE这种方法，主要是综合了传统视觉识别的神经网络和词向量处理(word2vec)中的skip-gram模型，实现了一个视觉和语义兼顾的ZSL模型，取得了较好的效果，时至今日准确率仍然可以排在前面。

背景

Skip-gram

Skip-gram是Word2Vec模型中的一种，给定一个input word来预测上下文，训练之后的模型的目的并不是用这个模型来预测，而是为了得到这模型隐层中学得的权重参数。
首先，我们构建一个完整的神经网络，包含输入层、隐层、输出层。
例如，对于一个句子“I want to eat an apple.” 选取一个词作为输入，这里选择"eat"，再定义一个参数skip-window,它代表着我们从当前input word的一侧（左边或右边）选取词的数量。如果我们设置 $skip\_window=2$ ，就代表选取输入词左边2个和右边2个单词进入窗口[“want”,“to”,“an”,“apple”]；另外一个参数num-skips，代表我们从窗口中选取多少个不同的词，作为我们的output，当 $skip\_window=1，skip\_num=2$ 时，我们将会得到两组 (input word, output word) 形式的训练数据，即 (“eat”, “to”)，(“eat”, “I”).
神经网络基于这些训练数据将会输出一个概率分布，这个概率代表着我们词典中的每个词是output word的可能性。例如，上面我们得到两组数据。我们先用一组数据('来训练神经网络，那么模型通过前面学习这个训练样本，会告诉我们词汇表中其他单词的概率大小和“eat”的概率大小。
具体地，因为神经网络的的输入必须为数值，所以我们会首先将词汇表中的单词进行one-hot编码，隐层不使用任何激活函数，但是输出层用softmax.

算法

算法思路

分别预训练一个视觉网络和一个词向量skip-gram网络，再结合两个网络进行训练。

原理

预训练一个视觉模型如下图：

和一个skip-gram模型，如下：

将两个模型整合：

具体：

语义模型
通过Skip-gram对模型进行训练，Skip-gram为通过单词来预测单词的上下文，训练模型最后得到一个权重矩阵，该矩阵即为需要的Embedding矩阵。
视觉模型
采用了1,000-class ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 这篇文章提出的模型，并将结果作为benchmark。
Deep Visual Semantic Embedding Model
即本文提出的模型。输出层去掉了之前的softmax，换成了一个将4096维向量（图像）映射到500或1000维（词向量）的线性映射transformation。
损失函数：使用点积相似性（dot-product similarity）和铰链损失函数（hinge rank loss）结合来作为该模型的损失函数，这可以使得在图像模型的输出和该图像对应的正确的标签的向量表示之间的点积相似性，要比不正确的其他标签的向量与该图像的相似性高。
定义：对于输入的image, core visual model的输出为 $\bar{v}($ image $)$ ,transformation模块的线性映射参数为 $M$ ,标签label，经过skip-gram模型的输出为 $\bar{t}_{\text {label}}$ 其中 image对应label，相似性度量为点积度量，同时结合了hinge rank loss，而未采用 $l_{2}$ loss论文的解释为分类问题(最近邻问题)本质为排名问题，即正确的标签排名应高于错误的标签,而 $l_{2}$ loss仅仅是考虑了让预测向量与正确的向量尽可能接近，却忽略了预测向量与其它错误向量的距离，实验结果也证明 $l_{2}$ loss效果不如hinge rank loss, 因此loss为：
$l(\text {image,label})=\sum_{j \neq l a b e l} \max \left[0, \operatorname{margin}-\left(\bar{t}_{\text {label}} M \bar{v}(\text {image})-\bar{t}_{j} M \bar{v}(\text {image})\right)\right]$
其中margin为超参数，实验中设置为0.1

参考文献

[1]A. Frome et al., ‘DeViSE: A Deep Visual-Semantic Embedding Model’, p. 9.

论文阅读（六）f-CLSWGAN

这篇CVPR 2018年发表的论文提出用对抗生成网络GAN来在特征空间生成数据的思想来解决zero-shot learning的问题。

背景

生成对抗网络GAN

生成对抗网络GAN是源自博弈论中的零和博弈，由两部分组成，分别是生成模型G(generative model)和判别模型(discriminative model)。
整个模型的目的是输入原始数据x和随机噪声信号z ，然后判别输出这个输入是真实数据还是生成的样本。

$X$ 是真实数据，真实数据符合 $P_{data}(x)$ 分布。 $z$ 是噪声数据，噪声数据符合 $P_z(z)$ 分布，比如高斯分布或者均匀分布。然后从噪声 $z$ 进行抽样，通过 $G$ 之后生成数据 $x = G (z)$ 。然后把生成数据们和原始数据们都送入分类器 $D$ ，后面接一个sigmoid函数，输出判定类别。

对于生成器来说，其要尽可能产生与原始数据相近分布的数据，也就是生成数据的分布与原始分布差距尽可能小；对于判别器来说，要尽可能判别出输入数据是属于原始数据还是属于生成数据；
我们给出优化函数：
$min _{G} \max _{D} V(D, G)$
$G)=\mathbb{E}_{x \sim p_{\text {data }}(x)}[\log D(x)]+\mathbb{E}_{z \sim p_{z}(z)}[\log (1-D(G(z))]$
具体优化过程略。
根据其原理，不难理解GAN的用途：产生数据、模拟分布代替原始数据。

算法模型

思路

作者使用GAN在特征空间生成数据，因为可以将zero-shot learning问题看作是数据缺失的问题，所以我们可以考虑生成目标域的数据，而生成特征数据比生成图像数据能取得更好的结果。

模型

本文的基本模型如图所示：

上面的一部分是通过CNN提取真实图像数据的特征，里面的CNN可以用GoogleNet或ResNet，可以是从ImageNet上预训练的模型，也可以是在特定任务中微调过的模型，本文中采用的是预训练模型；首先利用CNN网络提取特征 $x$ ；然后将特征 $x$ 与其对应的属性描述 $c (y)$ 拼接后输入判别器，并判别为真。
下面一部分是生成数据的分支随机生成一个变量，与属性描述拼接后输入生成器，生成特征大，再次将 $\hat{x}$ 与属性描述 $c (y)$ 拼接后输入判别器并判别为假。
为提高生成质量，加一个auxiliary classifier, 对生成的数据进行分类，类别为 $y_{\circ}$ 。
优化的过程跟传统GAN类似。

参考文献

[1]Y. Xian, T. Lorenz, B. Schiele, and Z. Akata, ‘Feature Generating Networks for Zero-Shot Learning’, ArXiv171200981 Cs, Apr. 2018, Accessed: Jan. 12, 2021. [Online]. Available: http://arxiv.org/abs/1712.00981.

论文阅读（七）Unsupervised Domain Adaptation

这篇论文运用了一个unsupervised domain adaptation的技巧结合正则化字典稀疏学习，主要解决zero-shot learning中的domain shift问题。

背景

字典稀疏学习

稀疏表示
假如我们用矩阵 $X=\{x_1,x_2,\cdots,x_n\}\in R^{d\times n}$ 表示数据集，每一列代表一个样本，即 $n$ 个样本，每个样本有 $d$ 维属性.一般情况下这个矩阵的大多数元素不为零，称之为稠密的.
稀疏表示的含义是，寻找一个系数矩阵 $A=\{\alpha_1,\alpha_2,\cdots,\alpha_n\}\in R^{k\times n}$ 以及一个字典矩阵 $B\in R^{d\times k}$ ，使得 $B A$ 尽可能的还原 $X$ ，且 $A$ 尽可能稀疏，则 $A$ 就为 $X$ 的稀疏表示.
字典学习
为普通稠密表达的样本找到合适的字典，将样本转化为合适的稀疏表达形式，从而使学习任务得以简化，模型复杂度得以降低，通常称为"字典学习"（dictionary learning）.
目标函数：
$\min _{B, \alpha_{i}} \sum_{i=1}^{m}\left\|x_{i}-B \alpha_{i}\right\|_{2}^{2}+\lambda \sum_{i=1}^{m}\left\|\alpha_{i}\right\|_{1}$
其中， $x_i$ 为第 $i$ 个样本， $B$ 为字典矩阵， $\alpha_i$ 为 $x_i$ 的稀疏表示， $\lambda$ 为大于0的参数。

上式中第一个累加项说明了字典学习的第一个目标是字典矩阵与稀疏表示的线性组合尽可能的还原样本；第二个累加项说明了alphai应该尽可能的稀疏。之所以用L1范式是因为L1范式正则化更容易获得稀疏解。
求解过程中：对字典 $B$ 以及样本稀疏表示 $\alpha_i$ 交替迭代优化。即先初始化字典 $B$ ，(1)固定字典 $B$ 对 $\alpha_i$ 进行优化；(2)固定 $A$ 对字典 $B$ 进行优化。重复上述两步，求得最终 $B$ 以及 $X$ 的稀疏表示 $A$ 。
其中第一步可采用与LASSO正则化相似的方法进行求解，第二步可采用KSVD方法进行求解。

算法模型

算法思路

传统的ZSL，思路就是建立一个语义空间，可以人工建立属性也可通过词嵌入模型构建，然后建立训练数据点到该空间的映射，然后测试样本也通过这个映射到语义空间再结合最近邻方法输出预测，但是已经通过实验证实这样直接将训练得到的映射给测试样本用存在domain shift问题，本文通过一个domain adaptation的框架以及结合传统的字典学习解决这个问题。

设定

定义符号：将训练样本集称为source domain（源域），测试样本集称为target domain, 样本所在的视觉特征空间维度为 $d$ , 语义空间维度为 $m , m < d ; m, m 有 c s c_{s} 个可见类，共 n s n_{s} 个样本, 所有可见样本的类标签为 z s ∈ R n s ; c t z_{s} \in R^{n_{s}} ; c_{t} 个不可见类, n t \quad n_{t} 个样本，所有不可见样本的类标签为 z t ∈ R n t ; z_{t} \in R^{n_{t}}; 将所有写成矩阵形式就是： X s ∈ R d × n s , X t ∈ R d × n t , X_{s} \in R^{d \times n_{s}}, \quad X_{t} \in R^{d \times n_{t}}, 其在语义空间中的对应语义向量组成矩阵为 Y s ∈ R m × n s , Y t ∈ R m × n t Y_{s} \in R^{m \times n_{s}}, Y_{t} \in R^{m \times n_{t}} \quad (未知) , , 对于source domain的字典为 D s , D_{s}, 对于target domain的字典为 D t , D_{t}, 都是 d × m d \times m 维的, d i d_{i} 为 D D 的第 i i 列。$

算法原理

传统的字典学习包含字典矩阵 $B$ 以及稀疏表示矩阵 $A$ 两个变量，通过迭代的方式，轮流优化，来学习得到参数。在本文中对源域和目标域分开学习：

源域source domain：
$\quad D_{s}^{*}=\operatorname{argmin}_{D_{s}}\left\|X_{s}-D_{s} Y_{s}\right\|_{F}^{2}$
s.t. $\forall i\left\|d_{i}\right\|_{2}^{2} \leq 1$
这是标准的形式，再加上正则化项：
$D_{s}^{*}=\operatorname{argmin}_{D_{s}}\left\|X_{s}-D_{s} Y_{s}\right\|_{F}^{2}+\lambda_{1}\left\|D_{s}\right\|_{F}^{2}$
s.t. $\forall i \quad\left\|d_{i}\right\|_{2}^{2} \leq 1$
这个形式就和ridge regression很相似了，这也区分于传统的字典稀疏学习，因为这里只有一个优化变量 $D_{s}$
target domain: $\left\{D_{t}^{*}, Y_{t}^{*}\right\}=\operatorname{argmin}_{D_{t}, Y_{t}}\left\|X_{s}-D_{t} Y_{t}\right\|_{F}^{2}+\lambda_{2}\left\|Y_{t}\right\|_{1}$
$\forall i,\left\|d_{i}\right\|_{2}^{2} \leq 1$
这里就是标准的字典稀疏学习的形式了，但是再观察这个式子，对于两个优化变量，仅仅是促使了 $Y_{t}$ 变的稀疏（1-范数约束），而没有保证学习得到的 $D_{t}$ 对于 $X_{t}$ 是正确的投影.再再目标函数上加上几个正则化项，才能让学到的 $D_{t}$ 和 $Y_{t}$ 更有用。
改写为：
$\left\{D_{t}^{*}, Y_{t}^{*}\right\}=\operatorname{argmin}_{D_{t}, Y_{t}}\left\|X_{s}-D_{t} Y_{t}\right\|_{F}^{2}+\lambda_{2}\left\|Y_{t}\right\|_{1}+\lambda_{3}\left\|D_{t}-D_{s}\right\|_{F}^{2}+\lambda_{4} \sum_{i, j} w_{i j}\left\|y_{i}-p_{j}^{t}\right\|_{2}^{2}$
$\forall i\left\|d_{i}\right\|_{2}^{2}<1$
其中， $p_i^t$ 代表未见类 $i$ 在语义空间的prototype
新添加的两个正则化项：
其中 $\left\|D_{t}-D_{s}\right\|_{F}^{2}$ 以 $D_{s}$ 为基础约束 $D_{t} \quad$ (毕竟两个都是映射到同一个语义空间，这也就是相当于将 $D_{s}$ 作为先验知识，结合了传统的寻找视觉特征映射方法。
而 $\sum_{i, j} w_{i j}\left\|y_{i}-p_{j}^{t}\right\|_{2}^{2}$ ，对于每个数据点学到的 $y_{i} \quad$ ，其对应的类标签为 $z_{t}^{i}$ ,而该标签在语义空间的prototype为 $p_{t}^{i}$ , 因此两者做一个误差项 $\left\|y_{i}-p_{j}^{t}\right\|_{2}^{2}$ ; $w_{i j}=p\left(z_{t}^{j} \mid x_{i}\right)$ 这个值可以通过IAP (indirect attribute prediction) 求出来，两者相乘再求和跑遍所有样本和类，结合了传统的视觉-语义相似度匹配方法。
实验也证明了这两个额外的正则化项提高的模型的分类能力
接下去就是和传统的字典学习差不多了，轮流固定，优化另一个，因为一起优化的话就是非凸问题了。

参考文献

[1]E. Kodirov, T. Xiang, Z. Fu, and S. Gong, ‘Unsupervised Domain Adaptation for Zero-Shot Learning’, in 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, Dec. 2015, pp. 2452–2460, doi: 10.1109/ICCV.2015.282.

你可能感兴趣的:(Zero-Shot,Learning,零样本学习,少样本学习,计算机视觉,机器学习)

【LeetCode 热题 100】73. 矩阵置零——（解法一）空间复杂度 O(M + N) xumistore LeetCode leetcode 矩阵算法
Problem:73.矩阵置零题目：给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。文章目录整体思路完整代码时空复杂度时间复杂度：O(M*N)空间复杂度：O(M+N)整体思路这段代码旨在解决“矩阵置零”问题，它通过HashSet来存储需要置零的行和列的索引，并在一个统一的阶段完成置零操作。算法的整体思路是“先标记，后置零”：第一阶段：使用HashSet进
为什么国内的教科书编写的如此晦涩？点云SLAM 数学学习方法
很多人在学习过程中都有类似感受：中国的教科书“难搞懂”。造成这种现象的原因主要可以从以下几个方面来分析：1.教学目标更重“系统性”而非“启发性”中国教科书通常强调知识的完整性、系统性、逻辑性，但不强调引导性和直觉体验。很多内容是按照“定义→定理→推论”的顺序展开，对初学者不友好，因为缺少“为什么要学”“生活中的例子”“背后直觉”的铺垫。国外教材比如《Calculus》（Stewart）会在每章开头
leetcode1089.复写零
题目链接：1089.复写零题目描述：给你一个长度固定的整数数组arr，请你将该数组中出现的每个零都复写一遍，并将其余的元素向右平移。注意：请不要在超过该数组长度的位置写入元素。请对输入的数组就地进行上述修改，不要从函数返回任何东西。示例一：输入：arr=[1,0,2,3,0,4,5,0]输出：[1,0,0,2,3,0,0,4]解释：调用函数后，输入的数组将被修改为：[1,0,0,2,3,0,0,4
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
大学生HTML期末大作业——HTML+CSS+JavaScript传统文化无·糖 Web前端期末大作业 html 课程设计 css 大学生前端大作业期末作业
HTML+CSS+JS【传统文化】网页设计期末课程大作业web前端开发技术web课程设计网页规划与设计文章目录一、网站题目二、网站描述三、网站介绍四、网站效果五、️网站代码六、️‍如何学习进步七、‍☠️更多干货文章目录一、网站题目传统文化精美设计5页含注册登录二、网站描述总结了一些学生网页制作的经验：一般的网页需要融入以下知识点：div+css布局、浮动、定位、高级css、表格、表单及验证、js轮
汇编语言:基于x86处理器第一章习题解答「已注销」 Linux 内核资深专家 arm
汇编语言习题解答习题解答1.1.3本节回顾习题解答1.1.3本节回顾1、汇编器和链接器是如何一起工作的？汇编程序要转化为可执行程序，需要先译码后组合。这是因为一个完整的汇编程序常常是由多个文件构成，先用汇编器将每一个文件中的汇编代码转化为机器语言后，链接器再把这些文件组合成一个可执行程序。2、学习汇编语言如何能提高你对操作系统的理解？可用汇编语言验证操作系统的理论知识，从而更深刻的掌握操作系统3、
Git学习和使用 mayue_csdn 工具 git
文章目录5.2.gitmodules用法5.2.1.gitmodules用法5.2.2纯本地用法5.2.3gitsubmoduleinit5.2.4gitclone子分支不是最新（有的是有的不是、配置没指定）检查子模块状态更新子模块重新初始化子模块清理和重新克隆检查SSH密钥和权限使用最新版本的Gitgitclone指定分支一、Git介绍1.2Git使用教程1.3Git查看和设置用户名和邮箱二、G
STM32的ADC校准过程
以下是STM32ADC校准的详细技术说明，包含实际操作步骤和注意事项：一、ADC校准的必要性误差来源分析：零点偏移误差（OffsetError）：输入0V时输出不为0增益误差（GainError）：满量程时的线性偏差非线性误差（DNL/INL）：转换曲线的阶梯偏差温度漂移（典型值±2℃时±4LSB）校准目标：12位ADC的有效精度达到±1LSB减少芯片个体差异影响补偿供电电压波动带来的误差二、ST
如何设计高可用容灾架构？深山技术宅素养 PHP 经验架构
设计高可用容灾架构需遵循分级冗余、自动故障转移、数据零丢失原则，通过多层次防御体系保障业务连续性。以下为经过亿级流量验证的架构方案及实施步骤：一、全局容灾架构拓扑graphTBsubgraphRegionA[主地域-上海]AZ1[可用区A]-->LB1[SLB负载均衡]AZ2[可用区B]-->LB1LB1-->App1[应用集群]App1-->DB1[(MySQLMGR组)]App1-->Cach
stack_queue扩展学习 --- 反向迭代器茉莉玫瑰花茶 C++反向迭代器 C/C++
反向迭代器的实现思路源码及框架分析迭代器是用来遍历容器的，是一种封装，它不需要去关注容器的底层实现（底层是数组，链表，还是树等等这些结构），我们都是用统一的方式去对容器进行访问，访问行为是类似指针的。我们之前学习了普通迭代器和const迭代器：普通迭代器：能读能写；const迭代器：只能读，只能遍历数据，得到数据，不能修改数据，是不能写的。我们之前学的普通迭代器是正向迭代器，如果我想逆方向遍历呢？
Java技术栈/面试题合集(16)-SpringCloud篇霸道流氓气质 Java进阶 Java SpringCloud 微服务面试
场景Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享：Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享_java高级进阶-CSDN博客通过对面试题进行系统的复习可以对Java体系的知识点进行查漏补缺。注：博客：霸道流氓气质-CSDN博客实现什么是SpringCloud？一、SpringCloud的核心定位1.定义SpringC
全球86%企业已启程：SNP零中断迁移方案护航S/4HANA转型 snpgroupcn 云计算数据仓库运维
目录如何在RISE项目中取得成功全程赋能：SNP为RISE项目打造的六大核心优势1、更快实现价值2、更高的灵活性3、降低成本4、风险可控5、更高的用户接受度3、近乎零中断客户评价实践见证：全球领先企业的成功典范1、IBM2、Pfizer辉瑞3、Coop超越迁移：构建数据驱动型业务的未来在SNP，我们已成功指导数百家企业完成复杂的SAP系统迁移项目。这些经验已融入我们的软件和转型方法论，使您的迁移之
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
【初阶学习Linux】初识Linux 鳄鱼皮坡 linux 学习运维开发语言
1.Linux背景介绍发展史:本门课程学习Linux系统编程，你可能要问Linux从哪里来？它是怎么发展的？在这里简要介绍Linuxs的发展史。要说Linux，还得从UNIX说起。UNIX发展的历史：1968年，一些来自通用电器公司、贝尔实验室和麻省理工学院的研究人员开发了一个名叫Multics的特殊操作系统。Multics在多任务文件管理和用户连接中综合了许多新概念。1969－1970年，AT&
LSTM 论文（Hochreiter & Schmidhuber, 1997）精读（三）
文章：SeppHochreiter,JürgenSchmidhuber;LongShort-TermMemory.NeuralComput1997;9(8):1735–1780.doi:https://doi.org/10.1162/neco.1997.9.8.1735第2节PreviousWork（已有研究），这是论文对以往方法的一个评述，总结了已有递归神经网络在面对时间序列学习、尤其是长时依赖
clickhouse数据库表和doris数据库表迁移starrocks数据库时建表注意事项总结积跬步，慕至千里软件安装及程序错误解决方案集数据库 clickhouse
目录零、前言一、clickhouse数据库表在starrocks数据库建表时问题总结1.1数据类型类问题：1.2数据导出阶段：二、doris数据库表在starrocks数据库建表时问题总结2.1properties不支持的属性（直接删除）：2.2properties需修改属性2.3properties：doris建表语句分区明细，starrocks数据不需要明确设定，会自动更新2.4分桶设置问题2
R 语言操作csv文件详解
在R中，我们可以从R环境外部存储的文件中读取数据。我们还可以将数据写入将由操作系统存储和访问的文件中。R可以读取和写入各种文件格式，如csv、excel、xml等。在本章中，我们将学习从csv文件读取数据，然后将数据写入csv文件。该文件应存在于当前工作目录中，以便R可以读取它。当然我们也可以设置自己的目录并从那里读取文件。获取和设置工作目录您可以使用**getwd()函数检查R工作区指向哪个目录
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
在WPF中使用CommunityToolkit.Mvvm——（一）为什么使用CommunityToolkit.Mvvm 永远的久远 wpf
前言阅读我文章的同学可能已经发现了，我总是会在一个系列文章的第一篇抛出问题，为什么要用到这个技术。因为一些成熟的库和技术会给我们带来生产力大幅的提升，同时通过学习一些优秀的开源项目，对我们个人的能力提升也会有帮助。接下来我们一起来看一下MVVMToolkit能为我们带来哪些惊喜～～CommunityToolkit.Mvvm是什么微软的官方文档这样介绍的CommunityToolkit.Mvvm包（
ubuntu上编译fastDDS库源码并运行hellworld示例程序的流程
1.介绍1.1.目的本文是关于自己了解、学习、并使用fastDDS中间件的文章，描述了在ubuntu18.04上从下载源码到安装运行hellworld的整个流程，本文章为亲身实践，有问题请私信沟通1.2.FastDDS介绍eProsimaFastDDS是一个独立的cpp中间件实现，提供OMGDDS1.4和OMGRTPS2.2可互操作的有线协议标准，是一款免费和开源软件（ApacheLicense2
AI初学者如何对大模型进行微调？——零基础保姆级实战指南
仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install--upgradepippip3installbitsandbytes>=0.39.0gitclone--depth1https://github.com/hiyouga/LLaMA-Factory.
《沟通力》：沟通力到底藏着多少不为人知的秘密？只因在人海中多看了你一眼个人成长学习
创作背景本文旨在通过多种沟通模型提升个人和团队的沟通能力。《沟通力》强调通过不同的沟通模型，提升沟通的效果和效率。阅读动机提升沟通能力：通过学习不同的沟通模型，提高日常交流的效果。优化工作表现：在职场中更好地表达自己，提高团队协作效率。增强人际关系：改善与家人、朋友的关系，建立更和谐的人际环境。核心概念与方法论1.沟通漏斗效应核心概念：沟通过程中，信息从发送者到接收者会逐渐减少，导致信息失真。方法
从0开始学习R语言--Day41--Moran‘s I Chef_Chen 学习
在处理带有空间特征的数据，我们往往都直接一股脑地处理数据点，但很多时候，空间上的信息对于处理后续衍生出来的问题会有很大帮助，例如对于城市里大小县城的发展情况，只知道单一县城的经济发展曲线，很难解释一些拐点和突然的攀升，而如果知道相邻县城存在经济发展飞快的例子，可能就是被带动了经济水平；亦或者是在处理社交网络的好有问题时，只知道谁和谁是朋友（类似于空间矩阵），是无法推断出经济收入相似的推论的，所以说
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
GO语言中二次插值算法实现预测
基础介绍：给定给定区间，函数连续且，那么根据介值定理，函数必然在区间内有根。二分法：将区间不断二分，使端点不断逼近零点。下一次迭代的区间为或，其中。割线法（线性插值）：基本思想是用弦的斜率近似代替目标函数的切线斜率，并用割线与横轴交点的横坐标作为方程式的根的近似。即给定两个点,。其割线方程为，那么令，x的值即为下一次迭代的结果。逆二次插值法：为割线法的进化版本。使用三个点确定一个二次函数，二次函数
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
UniApp的学习 xuzhihuan焕 uni-app 学习
一.Vue.js基础基本概念：总之，Vue.js是一个简洁、灵活、高效的前端JavaScript框架，具有响应式数据绑定、组件化开发、虚拟DOM等特点，适用于构建各种类型的Web应用。Vue.js介绍：了解Vue.js的起源、特点以及基本概念。特点：简洁易用：Vue.js的API简洁明了，学习曲线较为平缓，使得开发者能够快速上手。响应式数据绑定：Vue.js提供了响应式的数据绑定机制，当数据发生变
java中打印sql,利用JDBC的PrepareStatement打印真实SQL的方法详解 weixin_39878549 java中打印sql
前言本文主要给大家介绍了关于利用JDBC的PrepareStatement打印真实SQL的相关内容，分享出来供大家参考学习，下面来一起看看详细的介绍：我们知道，JDBC的PrepareStatement优点多多，通常都是推荐使用PrepareStatement而不是其基类Statment。PrepareStatement支持?占位符，可以将参数按照类型转自动换为真实的值。既然这一过程是自动的，封装
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Zero-Shot Learning零样本学习 学习进展汇总