~拾捌~

知识蒸馏论文翻译（9）—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation

基于知识对齐和关联的多层次知识蒸馏

文章目录

知识蒸馏论文翻译（9）—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation
摘要
一、介绍
二、相关工作
三、多层次知识提炼
- 3.1 知识整合
- 3.2 知识关联
- 3.3 有监督的知识提炼
- 3.4 MLKD objective
四、知识量化度量
五、实验
六、结论

摘要

知识蒸馏（KD）已成为模型压缩和知识转移的重要技术。在这项工作中，我们首先对通过不同KD方法转移的知识进行全面分析。我们证明了传统的KD方法，即最小化网络间softmax输出的KL差异，只与单个样本的知识对齐有关。同时，目前基于对比学习的知识发现方法主要是在不同样本之间传递相关知识，即知识相关性。考虑到知识从多层次（MLKD）向学生的有效转移，我们认为知识从多层次（MLKD）向学生的有效转移很重要。MLKD是任务不可知论和模式不可知论的，可以很容易地从有监督或自我监督的预培训教师那里转移知识。我们发现，MLKD可以提高学习表征的可靠性和可转移性。实验表明，MLKD在大量实验环境下，包括不同的（a）预训练策略（b）网络结构（c）数据集（d）任务，都优于其他最先进的方法。

代码：https://github.com/pytorch/examples/tree/master/imagenet

一、介绍

深度神经网络最近在计算机视觉[39]和自然语言处理[4]方面取得了显著的成功，但它们需要较高的计算和内存需求，这限制了它们在实际应用中的部署。KD提供了一个很有希望的解决方案，可以通过额外的监督信号从高能力教师那里转移知识，从而构建轻量级模型[5,23]。

要开发一种有效的提炼方法，主要有两个问题：

教师网络中编码了哪些类型的知识
如何在网络之间传递知识。现有的知识发现方法根据知识转移是来自单个样本还是跨样本，侧重于知识对齐或知识关联。

原始KD最小化了教师和学生网络概率输出之间的KL发散损失。该目标旨在将暗知识[23]即相对概率的分配转移到错误的类别。我们的分析表明，该logit匹配解决方案实际上对单个样本执行知识对齐。最近，CRD[35]被提出基于对比目标学习结构表征知识。SEED[17]是另一种对比提炼方法，鼓励学生向自我监督的预培训教师学习。基于对比学习的方法注重知识相关性，因为它们在不同样本之间传递关系知识。

图1：知识一致性（a）和相关性（b）的必要性说明。蓝色：老师，Y黄色：学生，红色圆圈：语义相同的样本，边界：决策边界。知识对齐侧重于直接的特征匹配，而知识关联捕获样本之间的相对关系。当只考虑一个目标时，可能会导致不同的映射（A的圆和B的两个可能映射），并且可能无法实现最佳蒸馏。

在剖析KD之后，我们发现在以前的工作中忽略了两个关键因素。首先，传统的KD过于依赖于特定的训练前策略和网络架构。随着新的培训方法和体系结构不断涌现，我们需要一个更通用的KD解决方案。其次，现有知识发现方法中的知识对齐和知识关联在很大程度上是分离的。我们在图1中说明了知识对齐和关联的必要性。在这项工作中，我们通过有效地考虑知识对齐和关联，引入了多层知识蒸馏（MLKD）。我们提出了一种特征匹配方法来协调教师和学生之间的知识。特别是，我们发现纺锤形转换在知识对齐中起着关键作用。我们还引入了一种有效的知识关联解决方案来获取结构化知识。它们都关注最终的特性表示，因此我们的解决方案（MLKD）不依赖于特定的预训练任务或体系结构。此外，我们还通过利用标签引入了一个可选的监督蒸馏目标，可以考虑在网络之间间接传递类别结构知识。

MLKD使学生能够从教师那里学习到更丰富的表征性知识，而现有方法可能无法有效地获取这些知识。然后，我们定义了一个通用的知识量化度量来衡量和评估视觉概念在学习表示中的一致性。我们的实验表明，MLKD可以让学生学习更多的广义表征，某些学生甚至可以取得比老师更好的表现。在大量实验中，我们的方法始终优于最先进的方法，包括不同的预训练策略（有监督、自我监督）、网络架构（vgg、Resnet、WideResnet、MobileNet、ShuffleNet）、数据集（CIFAR-10/100、STL10、ImageNet、Cityscapes）和任务（分类、分割、自我监督学习）。

二、相关工作

知识提炼。Hinton等人[23]首先提出KD将黑暗知识从教师转移到学生身上。softmax输出编码的知识比热标签更丰富，可以提供额外的监控信号。SRRL[41]利用教师的投影矩阵，通过二语损失训练学生的表达能力，从而实现知识提炼。然而，这些工作依赖于有监督的预培训教师（使用logits），并且它们可能不适合于自我监督的预培训教师。SSKD[40]提出将自监督辅助任务与KD相结合，以传递更丰富的暗知识，但它不能以端到端的训练方式进行训练。与logits匹配类似，中间表示[32,43,42,36,22]广泛用于KD。FitNet[32]建议匹配整个特征图，这很困难，在某些情况下可能会影响学生的收敛性。注意转移[43]利用空间注意图作为监控信号。AB[22]提出在教师中学习隐藏神经元的激活边界。SP[36]专注于在教师和学生之间转移类似（不同）的激活。然而，这些工作大多依赖于某些体系结构，如卷积网络。由于这些蒸馏方法涉及单个样本中的知识匹配，因此它们与知识对齐有关。我们的工作还包括知识整合目标，它不依赖于预培训策略或网络架构。

知识提炼和自我监督学习。自监督学习[30,2,8,20,6]侧重于通过实例判别学习低维表征，这通常需要大量负样本。最近，BYOL[18]和DINO[7]利用动量编码器避免在没有负片的情况下崩溃。动量编码器可被视为平均教师[34]，在学生培训期间动态构建。对于KD，教师在蒸馏过程中进行预培训和固定。虽然在自监督学习中，不同的视图（增强图像）通过网络传递，但它们来自相同的原始样本，并且具有相同的语义。因此，在每次迭代中，它在学生和动量教师之间执行知识对齐。特别是，DINO专注于基于多作物增强的本地到全球知识整合。

关系知识提炼。除了知识对齐，KD的另一个研究方向是转移样本之间的关系。DarkRank[10]利用交叉样本相似性来传递度量学习任务的知识。此外，RKD【31】传递了不同特征表示的距离和角度关系。最近，CRD[35]提出将对比目标应用于结构知识提炼。然而，它随机抽取负样本，并不可避免地选择假阴性，从而导致次优解决方案。SEED[17]旨在鼓励学生从一位自我监督、接受过培训的教师那里学习表征知识。但由于使用了大队列，无法在不同语义样本之间有效地传递知识。由于这些蒸馏方法侧重于在不同样本之间传递相关知识，因此它们与知识相关性相关。我们的工作提出了一个有效的知识关联目标。

三、多层次知识提炼

对于一对教师和学生网络， $f^T_\eta(\cdot)$ 和 $f^S_\theta(\cdot)$ ，学生在受监督或自我监督的预培训教师发出的额外监督信号下接受培训。 $f^T_\eta(\cdot)$ 是特征蒸馏器， $z_T$ 表示学习的最后一层特征。以监督分类任务为例，除了 $f^T_\eta(\cdot)$ ，还有一个投影矩阵 $W_T\in \reals^{D\times K}$ 将特征表示映射到 $K$ 个category logits，其中 $D$ 是特征维度。我们用 $s(\cdot)$ 表示softmax函数和标准KD损耗[23]可以写成：

其中， $h_\varphi(\cdot)$ 、 $z_S$ 和 $W^k_T$ 是可训练的， $z_T$ 和 $W^k_T$ 是被冷冻的。 $h_\varphi(\cdot)$ 是从学生到教师的特征转换函数。我们可以观察到，当 $z_T=h_\varphi(z_S)$ 时，第一个损失项达到最优解，第二个损失项成为softmax分布之间的KL散度。因此， $h_\varphi(\cdot)$ 在最小化网络输出之间的差异方面起着关键作用，简单地匹配维度[32]可能无法有效工作。首先，我们更愿意让学生从老师那里学习优秀的特性，而不仅仅是为了最大限度地减少第一个损失项，因此对 $h_\varphi(\cdot)$ 的要求是它不应该太强大。第二，当 $h_\varphi(\cdot)$ 较弱时，上述两个损失项都变大，使学生更难优化。因此，为 $h_\varphi(\cdot)$ 设置合适的建模能力至关重要。

上述目标有两个主要局限性。首先，这两个损失项目都取决于教师的登录，因此这种方法只适用于在分类任务上预先培训标签的教师。因此，它不能扩展到自我监督的预培训教师的知识转移。第二，这两个损失项都侧重于特征对齐和最小化网络输出之间的差异，但忽略了教师的重要结构知识。这项工作建议在表示层将知识对齐和关联结合起来，以克服这两个限制。

3.1 知识整合

一位训练有素的教师已经编码了优秀的表征知识，即分类知识（来自同一类别的样本在表征空间中很接近），为了更好地匹配教师的表征（ $f^T_\eta(\cdot)$ ）和学生表征的转换（ $h_\varphi(f^S_\theta(x))$ ），需要更强的监督。因此，我们采用以下目标来鼓励学生直接学习教师的表达方式：

这一目标迫使学生直接模仿老师的表现，并能提供比标准KD损失更强大的班级间相似性监督信号[23]。等式2只关注最后一个特征表示之间的匹配。这与之前的FitNet loss不同，FitNet loss匹配的是整个特征图，这将导致训练变得困难，甚至在 $h_\varphi(\cdot)$ 仅被视为维度匹配时失败。在第5节中，我们确认 $h_\varphi(\cdot)$ 的适当表达能力在知识整合中起着关键作用。

知识对齐可以进一步表示为：

其中， $l(\cdot,\cdot)$ 损失函数用于惩罚不同输出中网络之间的差异。这是对现有KD目标的概括[23,32,42,43,41]。例如，Hinton等人[23]计算 $f^T$ 和 $f^S$ 之间的KL散度，其中线性函数 $h_\varphi$ 和 $g_\varphi$ 将表示映射到Logit。SRRL[41]利用教师预先训练好的投影矩阵 $W_T$ 来强化教师和学生的特征，通过二语损失产生相同的逻辑。这些方法依赖于分类任务的登录。相比之下，我们的方法与任务无关。虽然知识整合是有效的，但它不能确保教师的知识得到充分转移，因为它只关注个别样本的知识转移。

3.2 知识关联

训练前的教师还对样本之间丰富的关系进行编码，样本关系转移允许学生学习与教师相似的表征空间结构。在这里，我们提出了一个知识关联目标来传递结构知识。具体来说，我们计算每个（n+1）-元组样本的关系分数作为交叉样本关系知识。目标可以表示为：

其中， $N$ 是批量大小， $\varPsi$ 是关系函数，用于测量增广的 $\tilde{x}_i$ 样本 ${x_i\}_{i=1:N}$ 之间的关系分数。 $l(\cdot,\cdot)$ 是损失函数。每批样本具有不同的语义相似度， $\varPsi$ 需要给语义相似的样本分配较高的分数，否则分配较低的关系分数。在这里，我们应用余弦相似性来度量表示之间的语义相似性，并将其转换为softmax分布以进行知识相关性计算。 $\{\tilde{x}_i\}_{i=1:N}$ 和 ${x_i\}_{i=1:N}$ 之间的所有相似性都可以写成矩阵 $A$ 。关系函数为：

式中， $\tau$ 是软化峰值分布的温度参数， $f(\cdot)$ 是教师或学生网络。对于教师网络， $A_{i,j}$ 由表示计算。对于学生网络，我们还将变换函数应用于表示 $z_S$ ，以进行损耗计算。我们注意到，这种关系函数类似于InfoNCE loss[30]，它被广泛用于自我监督对比学习[8,20]。然而，我们的目标是编码样本之间的关系，而不是实现实例区分[38]。然后，我们应用KL发散损失将这些关系从教师转移到学生。

相比之下，RKD[31]提出了关系知识蒸馏的距离和角度损失。前者在量表上存在显著差异，使训练不稳定。后者利用三组样本计算角度分数( $O(N^3)$ ）复杂度。我们基于KL的解决方案实现了 $O(N^2)$ 复杂度的高阶特性。SEED[17]提出利用样本和队列之间的相似性分数，从自我监督的预培训教师那里转移知识。然而，由于大量不同的样本，大队列导致softmax输出稀疏，这使得它无法在不同语义样本之间有效地传递知识。我们直接计算每个批次中的相互关系，并利用KL发散损失，它不需要额外的队列和大批量，并且具有较高的计算效率。

表1：类似结构之间的蒸馏性能比较。它报告了CIFAR100测试数据集的最高精度（%）。我们用粗体和下划线表示最好和次好的结果。所有比较方法的结果来自[40]。

3.3 有监督的知识提炼

上述两个目标都与特征表示有关，因此它们不依赖于特定的训练前任务。在此，我们还提出了一个基于信息损失的额外目标，供受监督的预培训教师使用。我们利用真标签从同一类别构造正标签，从不同类别构造负标签，这克服了CRD中的抽样偏差问题[35]。升华中有两种锚：教师锚和学生锚。前者来自教师的输出，相应的积极和消极来自学生。后者来自学生的输出，其正面和负面来自教师。

其中 $C=2N_{y_i}-1$ 和 $N_{y_i}-1$ 小批量中标签为 $y_i$ 的图像数。这个目标可以被认为是在网络之间间接地传递类别结构知识。它提供了分类相似性，以鼓励学生将同一类别的样本映射到紧密的表示空间中，而不同类别的样本则要远离。我们的公式类似于监督对比损失[25]。然而，所有样品都有助于梯度计算，而我们的蒸馏包含固定锚，需要进一步分析下限。此外，还对学生进行了交叉熵损失训练。

3.4 MLKD objective

任何培训前教师的总蒸馏损失都是知识对齐和相关性损失的线性组合：

其中 $\lambda_1$ 和 $\lambda_2$ 是平衡重。对于有监督的预训练教师，我们还添加了上述有监督蒸馏损失 $L_{Sup}$ 和 $L_{CE}$ 标准交叉熵损失（带平衡权）。

四、知识量化度量

有必要通过量化网络中编码的知识来理解抽象的表示。Cheng等人[11]提出量化前景和背景上网络的视觉概念，这需要对对象边界框进行注释。然而，这些类型的地面真相边界框并不总是可用的。在这里，我们定义了更通用的度量来解释和分析基于条件熵的网络中编码的知识。

表2：不同结构之间的蒸馏性能比较。它报告了CIFAR100测试数据集的最高精度（%）。我们用粗体和下划线表示最好和次好的结果。所有比较方法的结果来自[40]。

设 $X$ 表示一组输入图像。条件熵 $H (X ∣ z = f (x))$ 测量在正向传播期间从输入图像x到表示z的信息被丢弃的程度[19,11]。提出了一种基于摄动的近似 $H (X ∣ z)$ 的方法[19]。扰动输入遵循高斯分布，假设像素之间独立 $\tilde{x}~N(x,\sum=diag(\sigma^2_1,...,\sigma^2_n))$ ，其中 $n$ 表示像素总数。因此，图像级条件熵 $H (X ∣ z)$ 可以分解为像素级熵 $H(X|z)=\sum^n_{i=1}H_i$ ，其中 $H_i=log\sigma_i+\frac{1}{2}log(2\pi e)$ 。高像素熵表示通过层丢弃更多信息，低像素熵的像素与表示更相关，低熵的像素可以被视为可靠的视觉概念。

我们从知识量化和一致性的角度定义了两个通用的量化指标：平均值和IoU。图像的平均熵 $\bar{H}=\frac{1}{n}\sum_iH_i$ 表示在整个输入中丢弃了多少信息。较小的 $H$ 表示网络利用更多像素从输入计算特征表示。然而，更多的视觉概念并不总是导致最佳特征表示，这可能会导致过度拟合问题[3]。理想情况下，一个经过良好学习的网络应该能够编码出更健壮、更可靠的知识。因此，我们通过IoU度量来度量知识的一致性，IoU度量量化了同一图像的两个视图之间的视觉概念的一致性，即两个增强图像 $x_1$ 和 $x_2$ 。

其中1是指示函数， $S_{concept}(x)$ 表示视觉概念集（熵小于 $\bar{H}$ 的像素）。 $i\in x_1\cap x_2$ $表示两个增强图像的相同像素。这些相同的像素应该获得相似的视觉概念，并在增强图像之间保持良好的一致性。因此，我们选择视觉概念重叠数和视觉概念联合数（IoU）之间的比率来衡量学习表示的知识一致性。我们的IoU度量满足通用性和一致性[11]的要求，并可用于量化和分析视觉概念，而无需依赖特定的体系结构、任务和数据集。

五、实验

网络架构。我们采用vgg[33]ResNet[21]、WideResNet[44]、MobileNet[24]和ShuffleNet[45]作为师生组合，对CIFAR100数据集[28]和ImageNet数据集[16]上的监督KD进行评估。它们的实现来自[35]。对于结构化KD，我们基于[29]实现了MLKD，并在Cityscapes数据集[14]上对其进行了评估。教师模型是带有ResNet101的PSPNet架构[46]，学生模型设置为ResNet18。对于自我监督的KD，教师通过MoCo-V2[9]或SwA V[6]进行预训练，我们直接下载预训练权重进行评估。学生网络设置为较小的ResNet网络（ResNet 18、34）。我们还对STL10数据集[13]和TinyImageNet数据集[15,16]上的表示进行了可转移性评估。

表3:ImageNet上排名前1和前5的错误率（%）。我们用粗体和下划线表示最好和次好的结果。

实施细节。我们的实现主要是为了验证MLKD的有效性。我们遵循基于现有解决方案的相同培训策略，没有任何技巧。对于监督KD，我们使用动量为0.9的SGD优化器。权重衰减为 $5×10^{−4}$ 英寸CIFAR100。所有学生都接受了240个时代的培训，批量为64个。初始学习率为0.05，然后在第150、180和210个时期除以10。在ImageNet中，我们遵循Pytorch1的官方实现，并采用带有0.9的SGD优化器，动量和 $1×10^{−4}$ 重量衰减。初始学习率为0.1，在第30、60和90个纪元，总共100个纪元中，衰变为10。对于这两个数据集，我们采用常规的数据增强方法，例如四角旋转，即0◦,90◦,180◦,270◦. 为了执行结构化KD，学生使用动量为0.9的SGD优化器进行训练,，重量衰减为 $5×10^{−4}$ ，40000次迭代。训练输入设置为512×512，训练期间使用常规数据增强方法，如随机缩放和翻转。自监督KD由SGD优化器以0.9的动量进行训练。权重衰减为 $1×10^{−4}$ ，200个epochs。在比较的方法（CRD[35]、SKD[29]和SEED[17]）中可以找到更详细的培训信息。 $L_{Corr}$ 和 $L_{Sup}$ 中的温度 $\tau$ 设置为0.5和0.07。对于平衡重，我们根据损失值的大小设置 $\lambda_1=10$ 和 $\lambda_2=20$ 。在监督KD期间，我们将 $L_{Sup}$ 和 $L_{CE}$ 的权重设置为0.5和1.0。所有型号均在NVIDIA DGX2服务器上使用特斯拉V100 GPU进行培训。

六、结论

在这项工作中，我们将现有的蒸馏方法总结为知识对齐和关联，并提出了一种有效且灵活的多层蒸馏方法MLKD，该方法侧重于学习个体和结构表征知识。我们进一步证明，我们的解决方案可以增加教师和学生表示分布之间的互信息下限。我们进行了深入的实验，以证明我们的方法在不同的实验设置下达到了最先进的蒸馏性能。对学生表征的进一步分析表明，MLKD可以提高学习表征的可迁移性。我们还证明，我们的方法可以很好地工作在有限的训练数据在少数镜头的情况下。由于硬件的限制，我们没有进行更系统的超参数调整，这可以在未来的工作中进行，以进一步获得更好的性能。我们将通过在GitHub帐户上在线维护源代码来确保我们的方法公开可用。我们的解决方案与潜在的恶意使用无关，也没有任何隐私/安全考虑。

数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
深度学习框架PyTorch——从入门到精通（5）构建神经网络 Fansv587 Torch框架学习深度学习 pytorch 神经网络经验分享
构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作。在PyTorch里，torch.nn这个命名空间提供了你搭建自己神经网络所需要的所有基础组件。PyTorch里的每一个模块都是nn.Module类的子类。一个神经网络本身
深度学习框架PyTorch——从入门到精通（5）自动微分 Fansv587 深度学习 pytorch 人工智能
使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数的梯度相对于给定参数进行调整。为了计算这些梯度，PyTorch有一个内置的微分引擎，名为torch.autograd。它支持为任何计算图自动计算梯度。考虑最简单的一层神经网络，具有输入x、参数w和b以
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
深度学习中的Channel，通道数是什么？ %KT% 深度学习深度学习人工智能
参考文章：直观理解深度学习的卷积操作，超赞！-CSDN博客如何理解卷积神经网络中的通道（channel）_神经网络通道数-CSDN博客深度学习-卷积神经网络—卷积操作详细介绍_深度卷积的作用-CSDN博客正文：在跑深度学习代码的过程中，经常遇到的一个报错是：模型尺寸不匹配的问题。一般pytorch中尺寸/张量的表现方式是：torch.size([16,3,24,24])。这四个参数的含义如下：16
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
yolo模型coco数据集详解工头阿乐深度学习 YOLO
深度学习文章目录深度学习前言前言instances_train2017.json和instances_val2017.json文件均分为五大部分，这五部分对应的关键字分别为info、licenses、images、annotations、categories。{"info":info,"licenses":[license1,license2,license3,...],"images":[ima
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

知识蒸馏论文翻译（9）—— Multi-level Knowledge Distillation via Knowledge Alignment and Correlation