炫云云

8.7 Meta learning元学习全面理解、MAML、Reptile

文章目录

- 1、介绍
- - - 为什么需要元学习？
  - few-shot learning
  - reinforcement learning
- 2、概念
- 3、 Meta learning 三个步骤
- - 定义一组learning algorithm
  - 损失函数
  - 寻找最好的F
- 4、元学习过程总结
- - 元学习task定义
- 5、Meta Learning实例：Omniglot
- - N-way K-shot
- 参数初始化
- 6、MAML
- - 目标函数
  - MAML vs transfer learning
  - MAML的训练
  - MAML Toy Example
  - 算法
  - 梯度数学推导
  - 真正的实现
  - MAML 应用：Translation
- 7、Reptile
- - 梯度更新过程
  - - 训练过程
- 8、More about Meta Learning
- 参考资料

8.7 Meta learning元学习全面理解、MAML、Reptile

8.8LSTM作为元学习器学习梯度下降

1、介绍

元学习Meta learning = 学习如何去学习Learn to learn

为什么需要元学习？

传统深度学习需要大数据，因为使用随机梯度下降更新参数，需要数据进行缓慢地学习。当遇到新数据时，模型必须低效地重新学习它们的参数，以便在不产生灾难性干扰的情况下充分整合新信息。

但是人类在很少的样本学习——例如，一个孩子可以从一本书中的一张图片概括出“长颈鹿”的概念。这激发了我们的兴趣:“one-shot”学习，即从一个单一的例子中学习，和few-shot 学习即从小样本中学习，和zero-shot 学习即零样本中学习。这些都和元学习有关，元学习是快速学习的算法。

元学习是对模型的一种研究与学习。相对于deep learning在一个task（任务）中通过对样本的学习以对新样本做出判断，元学习的目标可以看做是将task视作样本，通过对多个task学习元知识和快速学习的能力，以使元模型（meta-learner）能够对新的task做出快速而准确的预测。它研究的不是如何提升模型解决某项具体的任务（分类，回归，检测）的能力，而是研究如何提升模型解决一系列任务的能力。

举个例子就是，机器之前学习了100个task，之后机器学习第101个task的时候，会因为之前学习的100个task所具有的知识，而让第101个task表现得更好。比如说第一个任务是语音识别，第二个任务是图像识别，第一百个任务是文本分类，机器因为之前所学到的任务，所以在后面的任务学习的更好。

这个和life long learning有什么区别吗！好像很像诶。确实，life long learning和meta learning都是要根据以往的task，希望对现在的task有所帮助，但是meta learn所要求的是学习新的task时候有新的model（训练后的），但是life long learning始终是一个模型。

和Life-long方法有所不一样：

方法	区别
Life-long	一个模型适用于所有任务
Meta	如何学习一种新的模型

few-shot learning

few-shot learning——小样本学习，是指通过极少的样本学习获得（监督/非监督）回归、分类模型。在现有的研究成果中，小样本学习可以基于fine-tune、metric(如孪生网络)、基于meta-learning等。在基于meta-learning的少样本学习中，已有memory-augmented neural networks (Santoro et al., 2016)、meta-learner LSTM (Ravi & Larochelle, 2017)等经典学习方法。

小样本学习一直和元学习系紧密。元学习的目标就是通过学习大量的task ，从而学习到内在的元知识，从而能够快速的处理新的同类任务，这和少样本学习的目标设定是一样的。我们也希望通过很多task来学习识别物体这种能力，从而面向新的少样本学习任务，能够充分利用已经学习到的识别能力（也就是元知识），来快速实现对新物体的识别。而在这里，通过前面的分析，我们明白了，我们要研究如何通过元学习的方式来让神经网络学会比较这个元知识能力。

reinforcement learning

相比于深度学习，强化学习的训练样本没有标签，是通过环境与决策的奖惩政策来进行学习。强化学习的过程是动态的，强调与环境进行交互，其优势在于解决决策问题，如推荐系统等。在本文中，MAML不仅可适用于few-shot learning，也同样适用于强化学习。

2、概念

机器学习：用Training Data训练由我们设计的Learning Algorithm，得到一个最优算法 $f^*$ ，可以用来完成相应的任务（猫狗识别）

meta learning方法是：依旧给模型很多训练数据，我们将Learning Algorithm当作是一个 $F$ （function），我们需要 $F$ 做的事生成另一个 $f^*$ （function），而这个f可以用来做影像识别。我们meta learning的方法就是找到 $F$ 。

Machine Learning ≈ 根据数据找一个函数 f 的能力

meta learning：用 $D_{train}$ 训练由我们设计的F，得到一个完成相应任务的 $f^*$ 函数，怎么感觉和上面没什么区别？

其实不一样，Meta Learning≈ 根据数据找一个找一个函数 f 的函数 F 的能力。 $F$ 的输入是训练数据，输出是解决一个小问题的 $f$ ,即
$\large \color{green}{f^{*}=F\left(D_{\text {train }}\right)}$

机器学习中是知道函数 $f$ ，而是训练函数f的参数；机器学习的方法可以简单理解为三步：

定义一个function 集合
找到一个 $f$ 好坏的度量指标（loss function）
在这个集合中寻找最好的 $f$

元学习是不知道函数 $f$ ，而是训练函数F找到 $f$ （含参数）。

我们meta learning的方法和machine learning的方法是十分相似的，也是三步：

定义一组learning algorithm $F$ 的集合，
定义一个判别learning algorithm 好坏的方法
找一个最好的learning algorithm做为 $F$ 。

3、 Meta learning 三个步骤

定义一组learning algorithm

首先，看看如何设置一个learning algorithm set。先来看机器学习中是如何进行learning algorithm的。以基于GD优化的算法为例，先是定义了一个神经网络结构，之后初始化参数值，之后根据训练数据计算梯度，更新参数，图中的每一步的gradient $g$ 其实不一样，最后得到最优的参数。

红色的格子都是人为设定的，网络结构的选择，参数的初始化，参数更新的方法，都是人为设计的，红框中如果我们定义不同的东西，实际上就是不同的算法。

那么这些部分能否是机器自己设计呢！我们参数的初始值能不能让机器自己初始化呢！假设机器自己初始化参数，机器自己选择参数更新方法，机器自己选择神经网络结构，这就是我们meta learning的learning algorithm set。

Meta Learning 就是把这些人为设定的模块由机器自行设计，使网络有更强的学习能力和表现。

损失函数

这个过程的损失函数：比如我们用一个learning algorithm $F$ 。首先用 $F$ 进行猫狗分类器的学习，之后得到了一个 $f^1$ ， $f^1$ 的训练数据进行测评，得到 $f^1$ 的loss function $l^1$ 。之后再用 $F$ 进行苹果橘子分类器的学习，得到一个 $f^2$ ， $f^2$ 的训练数据进行测评，得到 $f^2$ 的loss function $l^2$ 。

这里用 $F$ 完成n个分类task，之后对每一个task求一个 $l$ 。之后我们把所有的 $l$ 都加在一起，就变成了我们最后的损失函数 $L (F)$ 。我们就是使用 $L (F)$ 来评估F的。

从这里可以看到机器学习和元学习在数据上不一样。一般的机器学习任务是单任务的，所以数据集是一堆训练数据，和测试数据。但是在meta learning的任务是多任务的，所以在这种情况下，我们需要做的是将很多的任务分为训练任务和测试任务，之后每一个小的任务都有训练数据和测试数据。比如说一共有十个任务，我们将其中的八个作为是训练任务，剩余的两个作为测试任务，其中每一个任务都有自己的测试数据和训练数据。以此来检测meta learning的学习能力。

这里要说明：

由于元学习有多个任务，每个任务如果有很多数据，那么训练时间会很长很长，因此，元学习中每个任务的数据不会很多，所以元学习也叫few-shot learning，为了和机器学习区分开，训练和测试数据分别叫Support set和Query set。
和机器学习一样，当我们的元学习中的训练任务很多的时候，我们可以将其中一部分切出来作为验证任务：validation tasks。
元学习中的testing task可以和training task一样，也可以不一样。

寻找最好的F

meta learning损失函数，就是 $L （ F ）$ ，其实就是每一个训练子任务loss function总和。之后我们用梯度下降的方法不断的更新 $F$ 的参数，得到一个最好的 $F^*$ ，之后我们将训练好的 $F^*$ 放入到测试任务集中进行测试，如图，比如第一个测试任务是一个自行车汽车识别器，我们先将少量训练数据放入到 $F^*$ 中，之后得到一个分类器 $f^*$ ，之后我们将测试数据放入到 $f^*$ 中，得到最终的loss，作为这次测试的结果。

4、元学习过程总结

设 $\mathcal{X}$ 为输入的空间，和 $\mathcal{Y}$ 是一个离散的标签空间。设 $\mathcal{D}$ 为 $\mathcal{X} \times \mathcal{Y}$ 的分布。监督机器学习通常旨在通过对参数化模型和训练集应用学习算法捕获条件分布 $\mid x)$ ， $S_{\text {train}}=$ $\left\{\left(x_{i}, y_{i}\right) \sim \mathcal{D}\right\}_{i=1}^{N} .$ 在推理时，模型在测试输入 $x$ 上进行评估，以估计 $\mid x)$ 。推理和学习算法的组合可以写成函数 $h$ (一种分类算法)以训练集作为输入，还有测试时输入 $x$ ，并在标签上输出估计概率分布 $\hat{\mathbf{p}}$ :
$\large \color{green}{\hat{\mathbf{p}}(x)=h\left(x, S_{\text {train }}\right)}$
在few-shot学习中，我们希望函数 $h$ 即使在 $S_{\text {train}}$ 很小的情况下也具有较高的分类精度。Meta learning是一个涵盖了许多提出的经验风险最小化方法的术语。具体来说，他们考虑了参数化分类算法 $h(\cdot， \cdot;\mathbf{w})$ ，并尝试估计一个“好的”参数向量 $\mathbf{w}$ ，即对应于一个可以很好地从小数据集学习的分类算法。因此，学习这个参数向量可以理解为元学习。

因此学会获取元知识能力的方法有三种：

特定的网络结构
改变网络的初始化参数
参数更新的方法

元学习的目标是针对任务训练而不是数据点。每个任务 $\mathcal{T}_{i}$ 都是独立的，其输入为 $x_{t}$ ，输出为 $y_{t}$ ，损失函数是 $\mathcal{L}_{i}\left(x_{t}, y_{t}\right)$ ，一个转移分布 $P_{i}\left(x_{t} \mid x_{t-1}, y_{t-1}\right)$ ，任务大小 $H_{i}$ .一个元学习器建模分布： $\pi\left(y_{t} \mid x_{1}, \ldots, x_{t} ; \mathbf{w}\right)$ . 给定任务的分布 $\mathcal{T}=P\left(\mathcal{T}_{i}\right)$ , 元学习者的目标是使 $\mathbf{w}$ 的预期损失最小化。
$\large \color{green}{\begin{aligned} \min _{\mathbf{w}} & \mathbb{E}_{\mathcal{T}_{i} \sim \mathcal{T}}\left[\sum_{t=0}^{H_{i}} \mathcal{L}_{i}\left(x_{t}, y_{t}\right)\right] \\ \text { where } x_{t} & \sim P_{i}\left(x_{t} \mid x_{t-1}, y_{t-1}\right), y_{t} \sim \pi\left(y_{t} \mid x_{1}, \ldots, x_{t} ; \mathbf{w}\right) \end{aligned}}$
元学习器通过优化从 $\mathcal{T}$ 中采样的任务(或小批任务)的预期损失来进行训练。在测试过程中，对元学习者进行没遇见过的任务评估，这些任务来自不同的任务分布 $\widetilde{\mathcal{T}}=P\left(\widetilde{\mathcal{T}}_{i}\right)$ ，与训练任务分布 $\mathcal{T}$ 类似。

元学习算法有两个阶段。第一阶段是元训练，估计分类算法的参数向量 $\mathrm{w}$ 。

在元训练过程中，元学习器可以访问一个大型标记数据集 $S_{\text {meta}}$ ，该数据集通常包含大量类的数千张图像 $C$ . 在元训练的每次迭代中，元学习器从 $S_{\text {meta}}$ 中抽取一个分类问题样本。也就是说，元学习器首先从 $C$ 中抽取 $m$ 类的子集，然后抽取小的"training" 集合 $S_{\text {train }}$ 和小的"test" 集合 $S_{\text {test }} .$
然后，它使用当前的权重向量 $\mathbf{w}$ 来计算条件概率 $h\left(x, S_{\text {train}};\mathbf{w}\right)$ 用于测试集 $S_{\text {test}}$ 中的每一个点 $(x, y)$ 。注意，在这个过程中， $h$ 可能执行相当于对 $S_{\text {train}}$ 进行“training”的内部计算。根据得到的预测， $h$ 会对于当前 $S_{\text {test}}$ 中的每个点造成损失 $L\left(h\left(x, S_{\text {train }} ; \mathbf{w}\right), y\right)$ 。
然后元学习器反向传播总损失的梯度 $\sum_{(x, y) \in S_{\text {test }}} L\left(h\left(x, S_{\text {train }} ; \mathbf{w}\right), y\right)$ 。每次迭代的类数 $m$ 和每个类的最大训练样本数 $n$ 是超参数。

第二阶段是元测试阶段，将生成的分类算法用于解决新的分类任务:对每个新任务，分别给出有标记的训练集和未标记的测试示例，分类算法输出类概率。

元学习task定义

元学习的论文中多次出现名词task，模型的训练过程都是围绕task展开的，要正确地理解task，我们需要了解的相关概念包括 ${\mathcal D}_{meta-train}$ , ${\mathcal D}_{meta-test}$ , support set, query set, meta-train classes, meta-test classes等等。

我们假设这样一个场景：我们需要利用元学习算法训练一个数学模型模型 $M_{fine-tune}$ ，目的是对未知标签的图片做分类。

${\mathcal D}_{meta-train}$ 含有10个类别的图片 $C_1～C_{10}$ 即meta-train classes（每类30个已标注样本），用于帮助训练元学习模型 $M_{meta}$ 。

${\mathcal D}_{meta-test}$ 含有 5个类别数据 $P_1～P_5$ 即meta-test classes（每类5个已标注样本用于训练。另外每类有15个已标注样本用于测试），注意这里的数据和 ${\mathcal D}_{meta-train}$ 不一样，即未知标签的图片，是用于训练和测试 $M_{fine-tune}$ 的数据集。

训练过程，元学习者首先利用 $C_1～C_{10}$ 的数据集训练元模型 $M_{meta}$ ，再在 $P_1～P_5$ 的数据集上精调（fine-tune）得到最终的模型 $M_{fine-tune}$ 。我们的实验设置为5-way 5-shot。

根据5-way 5-shot的实验设置，我们在训练 $M_{meta}$ 阶段，从 $C_1～C_{10}$ 中随机取5个类别，每个类别再随机取20个已标注样本，组成一个task ${\mathcal T}$ 。其中的5个已标注样本称为 ${\mathcal T}$ 的support set，另外15个样本称为的** ${\mathcal T}$ query set**。这个task ${\mathcal T}$ ，就相当于普通深度学习模型训练过程中的一条训练数据。那我们肯定要组成一个batch，才能做随机梯度下降SGD对不对？所以我们反复在训练数据分布中抽取若干个这样的task ${\mathcal T}$ ，组成一个batch。在训练 $M_{fine-tune}$ 阶段，task、support set、query set的含义与训练 $M_{meta}$ 阶段均相同。

5、Meta Learning实例：Omniglot

N-way K-shot

N-way K-shot是few-shot learning中常见的实验设置。few-shot learning指利用很少的被标记数据训练数学模型的过程，这也正是MAML擅长解决的问题之一。N-way指训练数据中有N个类别，K-shot指每个类别下有 $K$ 个被标记数据。

既然 Meta Learning 是 learn to learn，那么如何证明 Meta Learning 算法的有效性呢？显而易见，只需要证明用这种算法得到的网络模型学习能力很强就行了。具体到我们的 MAML 和 Reptile，只需要证明，用它们这些算法初始化之后的神经网络，在新的任务上训练，其收敛速率与准确率比从随机初始化的神经网络要高。

这里所谓“新任务”，一般是指难度比较大的任务，毕竟难度大的任务才有区分度嘛，要是都像 MNIST 数据那么简单，随便一训练就 99% 的准确率，也看不出网络初始化参数所起的作用了。因此一般用 few-shot learning 的任务来评估 Meta Learning 算法的有效性。所谓 few-shot learning，就是指每类只有少量训练数据的学习任务（MNIST 每个数字都有上万张训练图片，因此不是 few-shot learning）。数据集 Omniglot：，是一个类似 MNIST 的手写数据集，如下图所示。该数据集包含 1623 类，每类只有 20 个训练数据，因此它属于 few-shot learning 的范畴，经常作为 benchmark 用来衡量 Meta Learning 算法的性能。

https://github.com/brendenlake/omniglot

• 1623 characters，部分字符：

每一个字符有20个例子，20个例子都是这个标签对应的不同的人写下的例子。

我们这个数据集究竟应该如何去使用呢！我们将整个数据集分为很多的N-ways K-shot classfication的任务。N-ways就是分为N类，K-shot就是每一类种有K个样本。就是一个总共类别有N类，每一类有K个样本的分类器。

举个例子20 ways 1 shot就是总共20类，每一类有1个样本的分类器。上图就是一个20 ways 1 shot的分类器，训练集就是20类，每一类就只有一张图片的图片集。测试集就是一张图片，我们可以看到测试集和训练集中最下面一行中间的那个是一类的。

在我们使用Omniglot数据集的时候，我们先将其中的1623类拆分为训练集和测试集，之后我们再在训练集中采样出 $N$ 类，每一类采样 $K$ 个样本作为我们的一个分类任务，当然我们的训练集可以被拆分组合为很多分类任务的。

我们测试集是在测试类中采样出 $n$ 类，每一类采样 $k$ 个样本作为我们的测试分类任务。当我们的 $F$ 在训练集中被训练好以后，我们就开始将其放入到test中进行测试。

参数初始化

训练神经网络的第一步是初始化参数。当前大多数深度学习框架都收录了不同的参数初始化方法，例如均匀分布、正太分布，或者用 xavier_uniform，kaiming_uniform，xavier_normal，kaiming_normal等算法。除了用随机数，也可以用预训练的网络参数来初始化神经网络，也就是所谓 transfer learning，或者更准确地说是 fine-tuning 的技术。

fine-tuning 之所以能 work，是因为预训练的神经网络本身就有很强的特征提取能力，能够提取很多有含义的特征，例如毛皮，耳朵，鼻子，眼睛，分辨猫狗，只需要知道这些特征是如何组合的就好了，这比从头开始学习如何提取毛皮、耳朵、鼻子等特征要高效得多。

预训练的网络比随机初始化的网络有更强的学习能力，因此 fine-tuning 也算是一种 Meta Learning 的算法。它和我们今天要介绍的 MAML 和 Reptile 都是通过初始化网络参数，使神经网络获得更强的学习能力，从而在少量数据上训练后就能有很好的性能。

下面我们来介绍两种meta learning的方法，分别是maml和reptile。前者是2017年的paper，后者是2018年的paper。

6、MAML

目标函数

MAML主要是关注初始化参数 $\phi$ 的选择（所有task的Network Structure都是一样的）。其损失函数为：
$\large \color{green}{L(\phi)=\sum_{n=1}^Nl^n(\hat\theta^n)}$
其中：

$\hat\theta^n$ : 在第 $n$ 个测试任务上训练之后的模型参数， $\hat\theta^n$ 依赖于 $\phi$ , $l^n(\hat\theta^n)$ : 任务 $n$ 的loss ，在任务 $n$ 的测试集上得出。

MAML的框架是两层的循环嵌套，外面这层是更新MAML模型的参数 $\phi$ ，然后里面这层是更新任务的参数 $\hat\theta^n$ ，当然这个内部循环只更新一次（实际是两次）。

使用Gradient Descent来最小化 $L(\phi)$
$\large \color{green}{\phi \leftarrow \phi-\eta \nabla_{\phi} L(\phi)}$
可能很多人看到meta learning的更新参数方法以后就会想到迁移学习中的model pre-training（ pre-training：假设task2的训练集太小不好训练，我们将和task2相似的task1作为先导数据集，进行训练，将训练的结果作为task2的初始化）。

这里要和transfer learning中的pre-train model的损失函数进行区分:
$\large \color{green}{L(\phi)=\sum_{n=1}^{N} l^{n}(\phi)}$
那么这两种方法有什么区别呢，可以看到transfer learning是用现有的模型去计算Loss (看模型的当前表现) 而MAML是用 $\phi$ 训练之后的模型来计算Loss (看模型潜力) 用图形来表示二者的区别吧

MAML vs transfer learning

对于MAML, 我们不在意 $\phi$ 在 training task 上表现如何, 我们在意用 $\phi$ 训练出来的 $\theta^{n}$ 表现如何，例如图中的 $\phi$ , 在task 1和task 2上目前表现并不是最好的, 但是在task 1上, 如果顺着左边的黑色箭头梯度下降，最终可以得到 $\hat{\theta}^{1}$ ; 在task 2上，如果顺着右边的黑色箭头梯度下降，最终可以得到 $\hat{\theta}^{2}$ 。

这两个都是最好的结果（全局最优）,所以这就是一个好的 $\phi$ .

对于transfer learning，我们寻找在所有task都最好的 $\phi$ ，但并不能保证把 $\phi$ 拿去训练以后会得到最好的 $\theta^n$ ，例如图中 $\phi$ 在task 1上得到最好的结果，但是拿到task 2上却只能得到一个局部最小值。

总结一下就是，Model Pre-training方法想要得到的参数 $\phi$ 就是在任何task上都表现良好的参数。但是MEML想要得到的参数是在任务task中经过训练集训练所能得到的比较好的参数。

Model Pre-training看重 $\phi$ 现在的表现，但是Meml看重 $\phi$ 未来的潜力。

MAML的训练

总结起来, MAML算法的框架其实很简单, 值得注意的是两个学习率 $\epsilon$ 和 $\eta$ 所用的地方不同:

对于采样出来的所有任务 $\theta^{i}$ , 在support set上计算梯度并更新参数 $\large \color{green}{\theta^{i}=\phi-\epsilon \nabla_{\phi} l(\phi)}$
计算所有任务在query set上的损失之和 $\large \color{green}{L(\phi)=\sum_{n=1}^{N} l^{n}\left(\theta^{n}\right)}$
更新初始化参数 $\large \color{green}{\phi \leftarrow \phi-\eta \nabla_{\phi} L(\phi)}$

MAML更新参数的过程中，一般只会更新一次：
$\large \color{green}{\hat \theta=\phi-\epsilon\triangledown_{\phi}l(\phi)}$
原因如下：

1，我们的meta learning有很多的任务，假设每一个任务都要更新很多次参数的话，会很慢，所以我们为了追求速度，就让模型只更新一次就好。

2，我们本来的想法就是希望模型非常棒,参数 $\phi$ 仅仅更新一次就得到这个子任务task的参数 $\theta$

3，当我们训练的时候，我们仅仅是让其更新一次，但是当我们真实测试的时候，我们往往可以更新无数次

4，我们的few-shot learning本身就是没有多少训练集，防止over fitting所以我们往往希望可以一次更新就得到参数。

MAML Toy Example

Each task:

• 给定一个正弦函数 $y=a\text{sin}(x+b)$ 作为target function；

• 从正弦函数中采样K个点作为样本；

• 用这K个样本来估计target function。

每一个task就是通过sample出的点还原最开始的方程式。我们可以不断的改变a和b的值，实现多个不同的任务，从而跑我们的mate learning。

Model Pre-training做出的结果如下图所示：由于Model Pre-training是在所有task都最好的初始化 $\phi$ ，这里所有的正弦函数叠起来就是一条直线，所以它初始就是直线。训练几次以后，仍然是水平线。

但是使用maml就大不相同，maml一开始的参数是一条波浪线，在训练一次以后大概可以知道哪里是波峰，训练十次以后，波峰和波谷几乎可以发现。

论文中是把maml和其他的meta learning方法做比较，发现maml的方法是比较好的。

算法

考虑一个由参数化函数 $f_{\theta}$ 表示的模型，参数为 $\theta$ 。当适应一个新任务 $\mathcal{T}_{i}$ 时，模型的参数 $\theta$ 变成 $\theta_{i}^{\prime}$ 。更新的参数向量 $\theta_{i}^{\prime}$ 是通过在任务 $\mathcal{T}_{i}$ 上使用一个或多个梯度下降更新来计算的。例如，当使用一个梯度更新时，
$\large \color{green}{\theta_{i}^{\prime}=\theta-\alpha \nabla_{\theta} \mathcal{L}_{\mathcal{T}_{i}}\left(f_{\theta}\right)}$
步长 $\alpha$ 可以固定为超参数或meta-learned。为了简单起见，将在其余部分考虑一个梯度更新，但是使用多个梯度更新是一个简单的扩展。

通过优化 $f_{\theta_{i}^{\prime}}$ 相对于 $\theta$ 的改进来训练模型参数，这些任务是从 $p(\mathcal{T})$ 采样的。更具体地说，meta目标如下:
$\large \color{green}{\min _{\theta} \sum_{\mathcal{T}_{i} \sim p(\mathcal{T})} \mathcal{L}_{\mathcal{T}_{i}}\left(f_{\theta_{i}^{\prime}}\right)=\sum_{\mathcal{T}_{i} \sim p(\mathcal{T})} \mathcal{L}_{\mathcal{T}_{i}}\left(f_{\theta-\alpha \nabla_{\theta} \mathcal{L}_{\mathcal{T}_{i}}\left(f_{\theta}\right)}\right)}$
注意meta-优化执行模型参数 $\theta$ , 而目标是使用更新的模型参数 $\theta^{\prime}$ 计算的,meta方法旨在优化模型参数，以便在新任务上使用一个或少量梯度步骤将在该任务上产生最大效率的行为。

通过随机梯度下降(SGD)进行跨任务元优化，将模型参数 $\theta$ 更新如下:
$\large \color{green}{\theta \leftarrow \theta-\beta \nabla_{\theta} \sum_{\mathcal{T}_{i} \sim p(\mathcal{T})} \mathcal{L}_{\mathcal{T}_{i}}\left(f_{\theta_{i}^{\prime}}\right)}$
其中 $\beta$ 是元步长。在一般情况下，完整的算法在算法 $1 .$ 中概述

第一个Require指的是在 ${\mathcal D}_{meta-train}$ 中task的分布。结合我们在上一小节举的例子，这里即反复随机抽取task ${\mathcal T}$ ，形成一个由若干个（e.g., 1000个） ${\mathcal T}$ 组成的task池，作为MAML的训练集。有的小伙伴可能要纳闷了，训练样本就这么多，要组合形成那么多的task，岂不是不同task之间会存在样本的重复？或者某些task的query set会成为其他task的support set？没错！就是这样！我们要记住，MAML的目的，在于fast adaptation，即通过对大量task的学习，获得足够强的泛化能力，从而面对新的、从未见过的task时，通过fine-tune就可以快速拟合。task之间，只要存在一定的差异即可。再强调一下，MAML的训练是基于task的，而这里的每个task就相当于普通深度学习模型训练过程中的一条训练数据。

第二个Require就很好理解啦。step size其实就是学习率，读过MAML论文的小伙伴一定会对gradient by gradient这个词有印象。MAML是基于二重梯度的，每次迭代包括两次参数更新的过程，所以有两个学习率可以调整。

以上面的5-way 5-shot例子为例，这里我们简单叙述下MAML的算法流程。

1. 上面我们已经将数据区分成了 ${\mathcal D}_{meta-train}$ 和 ${\mathcal D}_{meta-test}$ ，在 ${\mathcal D}_{meta-train}$ 和 ${\mathcal D}_{meta-test}$ 中我们又将数据区分了support set,query set
1. 我们用于训练的模型是 $M_{meta}$ （初始化参数为 $\phi$ ），这可能是一个输出节点为5的CNN，训练的目的是为了使得模型有较优秀的初始化参数。最终我们想要学出可以用于数据集 ${\mathcal D}_{meta-test}$ 分类的模型是 $M_{fine-tune}$ ， $M_{fine-tune}$ 和 $M_{meta}$ 的结构是一模一样的，不同的是模型参数。
1. 我们将1个任务task的support set去训练 $M_{meta}$ ，这里进行第一种梯度下降，假设每个任务只进行一次梯度下降，也就是 $\hat{\theta}^{1}\Leftarrow\phi -\epsilon .\partial l(\phi)/\partial \phi$ 。那么执行第2个task训练时，有 $\hat{\theta}^{2}\Leftarrow\phi -\epsilon .\partial l(\phi)/\partial \phi$ 。执行第batch size个task后，有 $\hat{\theta}^{bz}\Leftarrow\phi -\epsilon .\partial l(\phi)/\partial \phi$ ，如下图所示。

1. 上述步骤3用了batch size个task对 $M_{meta}$ 进行了训练，然后我们使用上述batch 个task中query set去测试参数为 $\hat{\theta}^{i},i\in[1,batch size]$ 的 $M_{meta}$ 模型效果，获得总损失函数 $L(\phi)=\sum_{i=1}^{bs}{l^{i}(\hat{\theta}^{i})}$ ，这个损失函数就是一个batch task中每个task的query set在各自参数为 $\hat{\theta}^{i},i\in[1,batch size]$ 的 $M_{meta}$ 中的损失 $l^{i}(\hat{\theta}^{i})$ 之和。
1. 获得总损失函数后，我们就要对其进行第二种的梯度下降。即更新初始化参数 $\phi$ ，也就是 $\phi\Leftarrow\phi -\eta.\partial L(\phi)/\partial \phi$ 来更新初始化参数。这样不断地从步骤3开始训练，最终能够在数据集上获得该模型比较好的初始化参数。
1. 根据这个初始化的参数以及该模型，我们用数据集 ${\mathcal D}_{meta-test}$ 的support set对模型进行微调，这时候的梯度下降步数可以设置更多一点，不像训练时候（在第一次梯度下降过程中）只进行一步梯度下降。
1. 最后微调结束后，使用 ${\mathcal D}_{meta-test}$ 的query set进行模型的评估。

梯度数学推导

GD更新公式为:
$\large \color{green}{\phi \leftarrow \phi-\eta \nabla_{\phi} L(\phi)\tag{1}}$
其中损失函数为每个任务的 loss累加
$\large \color{green}{L(\phi)=\sum_{n=1}^{N} l^{n}\left(\hat{\theta}^{n}\right)\tag{2}}$
其中参数 $\hat{\theta}^{n}$ 的计算公式为一步更新：
$\large \color{green}{\hat{\theta}=\phi-\epsilon \nabla_{\phi} l(\phi)\tag{3}}$
公式1中的梯度优化首先要计算损失函数的梯度：
$\large \color{green}{\nabla_{\phi} L(\phi)=\nabla_{\phi} \sum_{n=1}^{N} l^{n}\left(\hat{\theta}^{n}\right)=\sum_{n=1}^{N} \nabla_{\phi} l^{n}\left(\hat{\theta}^{n}\right)}$
下面来看梯度 $\nabla_{\phi} l(\hat{\theta})$ 的求法, 实际上是对每一项求偏导:
$\large \color{green}{\nabla_{\phi} l(\hat{\theta})=\left[\begin{array}{c} \partial l(\hat{\theta}) / \partial \phi_{1} \\ \partial l(\hat{\theta}) / \partial \phi_{2} \\ \vdots \\ \partial l(\hat{\theta}) / \partial \phi_{i} \\ \vdots \end{array}\right]}$
初始化参数 $\phi_{i}$ 是通过很多个 $\theta_i$ 来影向 $l(\hat{\theta}):$

根据链式法则：
$\large \color{green}{\frac{\partial l(\hat{\theta})}{\partial \phi_{i}}=\sum_{j} \frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_{j}} \frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}\tag{4}}$
上式中 $\frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_{j}}$ 很好计算, 根据损失函数的形式直接求即可，例如如果是交叉嫡，就用交叉嫡求偏导即可。重点来看后面这项: $\frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}$

根据公式3可知, $\hat{\theta}$ 是一个向量, 所以我们可以找其中一个分量: $\hat{\theta}_{j},$ 由公式3可得:
$\large \color{green}{\hat{\theta}_{j}=\phi_{j}-\epsilon \nabla_{\phi_{j}} l(\phi)=\phi_{j}-\epsilon \frac{\partial l(\phi)}{\partial \phi_{j}}\tag{5}}$
对公式5中求 $\phi_{i}$ 的偏导：

当 $\neq j$ 时
$\large \color{green}{\frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}=-\epsilon \frac{\partial l(\phi)}{\partial \phi_{i} \partial \phi_{j}}}$
当 $i = j$ 时
$\large \color{green}{\frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}=1-\epsilon \frac{\partial l(\phi)}{\partial \phi_{i} \partial \phi_{j}}}$
算二次偏导很麻烦, 原论文提出忽略二次偏导项:

当 $\neq j$ 时
$\large \color{green}{\frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}=-\epsilon \frac{\partial l(\phi)}{\partial \phi_{i} \partial \phi_{j}} \approx 0\tag{6}}$
当 $i = j$ 时
$\large \color{green}{\frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}=1-\epsilon \frac{\partial l(\phi)}{\partial \phi_{i} \partial \phi_{j}} \approx 1\tag{7}}$
把公式6和公式7代入公式4, 由于当 $\neq j$ 时, $\frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}}=0,$ 所以求和的时候只用考虑 $i = j$ 的情况，即公式4可以写为:
$\large \color{green}{\frac{\partial l(\hat{\theta})}{\partial \phi_{i}}=\sum_{j} \frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_{j}} \frac{\partial \hat{\theta}_{j}}{\partial \phi_{i}} \approx \frac{\partial l(\hat{\theta})}{\partial \hat{\theta}_{i}}\tag{8}}$
利用公式8的估计，梯度矩阵就变成了:
$\large \color{green}{\nabla_{\phi} l(\hat{\theta})=\left[\begin{array}{c} \partial l(\hat{\theta}) / \partial \phi_{1} \\ \partial l(\hat{\theta}) / \partial \phi_{2} \\ \vdots \\ \partial l(\hat{\theta}) / \partial \phi_{i} \\ \vdots \end{array}\right]=\left[\begin{array}{c} \partial l(\hat{\theta}) / \partial \hat{\theta}_{1} \\ \partial l(\hat{\theta}) / \partial \hat{\theta}_{2} \\ \vdots \\ \partial l(\hat{\theta}) / \partial \hat{\theta}_{i} \\ \vdots \end{array}\right]=\nabla_{\hat{\theta}} l(\hat{\theta})}$
最后我们的梯度优化项就变成了：
$\large \color{green}{\nabla_{\phi} L(\phi)=\nabla_{\phi} \sum_{n=1}^{N} l^{n}\left(\hat{\theta}^{n}\right)=\sum_{n=1}^{N} \nabla_{\phi} l^{n}\left(\hat{\theta}^{n}\right)=\sum_{n=1}^{N} \nabla_{\hat{\theta}^{n}} l^{n}\left(\hat{\theta}^{n}\right)}$

真正的实现

先要有一个初始化参数 $\phi^0$ ，然后把一个任务task看做是一个sample，当然可以用多个任务组成mini-batch，然后做GD，这里不是batch，而是用SGD：

基于 $\phi^0$ 计算网络在任务 m 上的损失函数，然后用SGD优化 $\phi^0$ ，以学习率 $\epsilon $ 得到任务 m 独有的网络参数 $\hat\theta^m$ ；

虽然说好只更新一次，但是这里还是更新两次：

接下来，在第二个绿色箭头，基于 $\hat\theta^m$ 计算任务 m 新的损失函数，并求出损失函数在 $\hat\theta^m$ 上的梯度 $\nabla_{\phi}l^{m}\left(\theta^{m}\right)$ 。我们不是用这个梯度优化 $\hat\theta^m$ ，而是优化最初的那个 $\phi^0$ ，即 $\large \color{green}{\phi^1 = \phi^0-\eta \nabla_{\phi}l^{m}\left(\theta^{m}\right)}$ 。如第一个蓝色箭头所示，该箭头和第二个绿色箭头是平行的，代表 $\phi^0$ 的更新方向为 $\hat\theta^m$ 处的梯度。

这里需要注意，同向的绿色和蓝色箭头不一定等长，因为LR可能不一样。

然后取一个任务n（Sample a training task n）同样用 $\phi^1$ 计算出 $\hat\theta^n$ ，以及 $\hat\theta^n$ 的下一次梯度方向

取其方向作为 $\phi^1$ 的梯度更新方向：

这里需要注意，同向的黄色和蓝色箭头不一定等长，因为LR可能不一样。

再次对比transfer learning的Model Pre-training在实现上和MAML有什么不一样：

现有一个初始化参数：

然后计算 $\hat\theta^m$

然后沿着绿色箭头更新 $\phi^0$

然后不断重复：

MAML 应用：Translation

Meta-Learning for Low-Resource Neural Machine Translation

18 training tasks: 18 different languages translating to English

2 validation tasks: 2 different languages translating to English

实验结果中用的是BLEU来做评估，横轴是数据量，当然数据量越大效果越好。Baseline是多任务学习。先看验证集结果，罗马语翻译为英文

测试任务结果，法语翻译英文

7、Reptile

On First-Order Meta-Learning Algorithms

Reptile算法流程

首先初始化一个网络模型的所有参数 $\phi$
迭代 $\mathrm{N}$ 次, 进行训练, 每次迭代执行:

$2.1$ 随机抽样一个任务 $t$ , 用网络模型进行训练, 对应的loss 是 $L_{t}$ , 训练结束后的参数是 $\tilde{\phi}$
$2.2$ 在参数 $\phi_{\text { }}$ 上使用SGD 或 $A d a m$ 执行 $K$ 次梯度下降更新, 得到 $\tilde{\phi}=U_{t}^{k}(\phi)$
$2.3$ 用 $\tilde{\phi}$ 更新meta网络模型模型参数, $\phi=\phi+\eta(\tilde{\phi}-\phi)$

完成上述 $N$ 次迭代训练, 则结束整个过程

从上面的算法中可以看出, Reptile 是在每个单独的任务执行K次训练后, 就开始真正更新网络模型的参数 (Meta)，更新方式不是梯度下降, 但是和梯度下降公式长得很像, 是用上一次的参数 $\phi$ 和K次后的参数 $\tilde{\phi}$ 的差来更新, 更新的步长是 $\epsilon_{\circ}$ 在这个过程中，只有一阶求导的计算, 就是在任务内部 $执行 K$ 次更新的过程中用到的随机梯度下降, 这也是为什么标题中叫 First-Order 的原因。

从这就可以看出和 MAML 算法的不同了：

MAML：所有任务执行完, 用每个任务测试集上的平均 loss 来更新 meta 参数。
Reptile: 每个任务执行K次训练后, 用最新的参数和 meta 参数的差来更新 meta 参数。

这里说的meta参数, 就是真正更新网络模型参数的过程

梯度更新过程

$\phi$ 代表网络模型初始参数, $\eta，\epsilon$ 分别代表 meta 更新的学习率和 task 更新的学习率, $N$ 是meta训练的 batch_size，即 meta 的一个bach有 $N$ 个task，每个task内部执行 $K$ 次训练， $N$ 个任务都训练完，再来更新meta参数。按照上面的算法过程，meta的一个batch训练完之后，网络模型的参数是：
$\large \color{green}{\begin{aligned} \phi &=\phi+\eta \frac{1}{N} \sum_{i=1}^{N}\left(\tilde{\phi}_{i}-\phi\right) \\ &=\phi+\eta(W-\phi) \end{aligned}}$
其中 $W$ 是每个任务最后参数的平均值, 上述公式再进行展开就是这样
$\large \color{green}{W=\frac{1}{N} \sum_{i}^{N} \widehat{w}=\frac{1}{N} \sum_{i}^{N}\left(\phi-\epsilon \sum_{j}^{k} g_{i j}\right)}$

$\large \color{green}{\begin{aligned} \phi &=\phi+\eta(W-\phi) \\ &=\phi+\eta\left(-\frac{\epsilon}{N} \sum_{i}^{N} \sum_{j}^{k} g_{i j}\right) \\ &=\phi-\frac{\epsilon \eta}{N}\left[\left(g_{11}+g_{12}+\cdots+g_{1 k}\right)+\cdots+\left(g_{N 1}+g_{N 2}+\cdots+g_{N k}\right)\right] \end{aligned}}$

假设 $N = 2, K = 3$ ，即meta每次训练的一个batch 有2个task，每个task内部进行3此迭代，则 meta每次更新模型参数的公式为：
$\large \color{green}{\begin{aligned} &\begin{aligned} N &=2, k=3 \\ W &=\frac{1}{2}\left[\left(\phi-\epsilon g_{11}-\epsilon g_{12}-\epsilon g_{13}\right)+\left(\phi-\epsilon g_{21}-\epsilon g_{22}-\epsilon g_{23}\right)\right] \\ \phi &=\phi+\eta(W-\phi) \\ &=\phi-\frac{\epsilon \eta}{2}\left[\left(g_{11}+g_{12}+g_{13}\right)+\left(g_{21}+g_{22}+g_{23}\right)\right] \\ &=\phi-\beta\left(g_{11}+g_{12}+g_{13}\right)-\beta\left(g_{21}+g_{22}+g_{23}\right) \end{aligned} \end{aligned}}$

训练过程

meta 模型的参数更新过程，在几何上就是这样的：

动图看的更加清晰些，其中绿色代表第一个任务，三个绿色箭头代表三次更新时的梯度方向，可以看到，Reptile的模型就是朝着每个任务的梯度和的方向上不断地进行更新。

现有初始化参数 $\phi^0$

取一个任务m（Sample a training task m）,Reptile没有规定只能更新一次参数，因此：

从 $\phi^0$ 到 $\hat\theta^m$ 方向就是 $\phi^0$ 更新的方向：

计算出 $\phi^{1}$ 后，取一个任务n (Sample a training task $\mathrm{n}$ ) 同样用 $\phi^{1}$ 计算出 $\hat{\theta}^{n}$ 并更新多次，取 $\phi^{1}$ 到 $\hat{\theta}^{n}$ 的方向作为 $\phi^{1}$ 的更新方向：

把pre-train, MAML, Reptile都放在一起看下有什么区别:

下面 $g_{1}$ 是pre-train的更新方向 , $g_{2}$ 是MAML的更新方向, $g_{1}+g_{2}$ 是Reptile的更新方向, 当然还可以更新更多次.

8、More about Meta Learning

上面讲的MAML和Reptile都是关于用Meta Learning来找初始化参数这个事情，那我们在介绍Meta Learning的时候还有很多红色框框，这些也是可以用Meta Learning来进行研究如何学习的。

下图是用network来设计Architecture & Activation，以及如何更新参数。

我们之前讲的都是用这种方法来更新我们的初始化参数，那么能不能有别的应用呢！其实是可以的，我们可以更新我们的神经网络的结构，也可以更新他们的更新的方法。当让我们用一个网络去更新另一个网络的话，我们是没有办法进行微分的，所以我们经常使用rl的方法进行更新。

其实我们之前是训练如何设置初始化参数 $\phi^{ }$ ，但是我们本身就有一个初始化参数 $\phi^{ 0}$ 。

于是我们就有了一个十分疯狂的想法，就是我们让我们的learning algorithm本身就是一个大的network，之后我们去让神经网络输出我们训练的参数θ，之后我们再用参数θ的分类网络去分类，得到我们最终的预测标签。那么我们可不可以把learning algorithm网络和分类网络两个网络都搞在一起呢！就是我们直接将两个网络都设置为黑盒，输入的是training data，之后再黑盒里得到我们的参数和模型，我们不知道参数是什么，不知道模型是什么，我们就可以直接得到我们的分类结果了。

这就是 8.9 元学习网络结构讲解的内容了。

参考资料

李宏毅2020人类语言处理

课程向：深度学习与人类语言处理

计算机视觉实验室

人工不智能，机器不学习

[meta-learning] 对MAML的深度解析

https://openai.com/blog/reptile/

你可能感兴趣的:(nlp,算法,自然语言处理,深度学习,数据挖掘,机器学习)

AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
淘宝商城四面（附架构面试专题）及B2C商城架构项目实战分享！风平浪静如码
一面主要问题如下（主要注重基础，问得很深很广，压力面试）：首先自我介绍数据结构算法的基本问题，如排序算法，二叉树遍历，后序遍历非递归，图的最短路径问题对一个数组进行绝对值排序的算法java中hashmap的底层实现java中垃圾回收机制GC原理等介绍自己的项目，数据库中用到的数据结构数据模型，死锁的概念（问的应该是数据库的死锁），如何避免死锁?乐观锁和悲观锁?一致性hash算法项目中业务对象的关联
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
【华为OD机试真题 Python语言】135、采样过滤 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题采样过滤
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述在做物理实验时，为了计算物体移动的速率，通过相机等工具周期性的采样物体移动距离。由于工具故障，采样数据存在误差甚至相误的情况。需要通过一个算法过滤
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
10、区块链技术及其应用吃瓜不吐籽595 解密《质量4.0与数字化转型》区块链比特币去中心化
区块链技术及其应用1.区块链简介区块链技术作为一种分布式账本，近年来受到了广泛关注。它不仅仅是一种技术革新，更是一种思维模式的转变。区块链的核心在于其去中心化、不可篡改和透明的特性，使得它在多个领域都有广泛的应用前景。区块链的基本概念区块链本质上是一个共享的、不可变的数字账本，记录了所有参与者之间的交易。每个区块包含了一系列交易记录，并通过加密算法与前一个区块相连，形成一条链。这种结构确保了数据的
学习嵌入式第六天缺口212 学习算法数据结构
一.数组的排序1.冒泡排序冒泡排序是一种简单的排序算法，其核心思想是通过重复遍历待排序的数组，每次比较相邻的两个元素，如果它们的顺序错误就把它们交换过来，直到没有元素需要交换为止。从数组的第一个元素开始，依次比较相邻的两个元素。如果前一个元素大于后一个元素，则交换这两个元素。每完成一轮遍历，最大的元素会“冒泡”到数组的末尾。之后缩小遍历范围（不再考虑已排好的末尾元素），重复上述过程，直到所有元素有
华为OD机试2025B卷真题题库目录｜机考题库 + 算法考点详解（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
时间轮算法
据说是复杂度O(1)的牛逼算法，所以抽时间学习学习。现在要实现一个定时器，这个定时器控制很多任务。该怎么做呢？第一反应是任务做成一个队列，属性有个时间，每次计时后将该属性减1，到0的时候就执行。这种方式可行，但是效率不高，因为每次都要遍历所有任务，所以时间复杂度是O(N)。优化的方法是什么呢？有点类似哈希表，增加一个时间队列，同时将任务预先排放在一个时间队列中。如果是100秒的时间范围，那么就是1
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
一文看懂NTP协议 Neolock 网络协议网络协议 ntp 网络
最近碰到一个NTP协议相关的题，卡了很久，才发现一直在用的NTP协议完全不了解他的原理，遂学习并总结一下1.NTP概述NTP（NetworkTimeProtocol）是一种用于同步计算机系统时钟的网络协议，旨在通过分层架构和精密算法，将设备时间同步至全球协调时间（UTC），精度可达毫秒甚至微秒级。其核心目标是通过减少时钟偏差和网络延迟影响，确保分布式系统的时间一致性2.NTP分层架构（Stratu
GDPR/等保2.0合规指南：企业商城系统必备的10大安全机制万米商云安全数据库网络
在数字经济全球化与数据主权博弈的双重背景下，企业商城系统作为承载用户隐私、交易数据与商业机密的核心载体，需同时满足欧盟《通用数据保护条例》（GDPR）与中国《网络安全等级保护2.0》的复合合规要求。本文从技术实现视角，解析企业商城系统必备的10大安全机制及其实施要点。一、全链路加密传输1、HTTPS强制部署采用OV/EV型SSL证书实现TLS1.3协议升级，支持国际RSA2048位或国密SM2算法
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
华为OD机试 2025 B卷 - 最大括号深度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷
最大括号深度华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述现有一字符串仅由‘(‘，’)’，’{‘，’}’，’[‘，’]’六种括号组成。若字符串满足以下条件之一，则为无效字符串：任一类型的左右括号数量不相等；存在未按正确顺序（先左后右）闭合的括号。输出括号的最大嵌套深度，若字符串无效则输出0。0≤字符串长度≤10
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
三生原理的颠覆性价值（无同类研究完全对可标）？
AI辅助创作：一、‌方法论层面的开创性‌‌动态嵌套解经路径‌该研究突破传统注疏模式，将《周易》“三生万物”等命题与分形几何、递归生成系统结合，构建可验证的数学映射模型（如素数生成公式p=3(2n+1)+2(2n+m+1)），使经典文本的哲学命题转化为算法逻辑，开创“批判性再解读-科学化重构”双轨框架。‌跨文化符号系统互译‌通过“阴阳元参数化联动”工具（如素数2为阴元、3为阳元），将传统文化核心符号
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本