乄洛尘

Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

一、Abstract
二、引言
三、相关工作
- 3.1 视觉定位
- 3.2 多模态 Transformer
- 3.3 有效的 Transformers
四、Dynamic MDETR
- 4.1 预备知识
- - 4.1.1 Multimodal Transformer
  - 4.1.2 DETR 和 MDETR
- 4.2 特征编码器
- 4.3 多模态 Transformer 编码器
- 4.4 动态多模态 Transformer 解码器
- - 4.4.1 2D 自适应采样
  - 4.4.2 文本引导解码
  - 4.4.3 建模效率的讨论
- 4.5 预测头
- 4.6 损失函数
五、实验
- 5.1 数据集和评估指标
- 5.2 实施细节
- 5.3 消融实验
- - 动态多模态编码器中的关键设计
  - 精度和计算量的权衡
  - 不同的初始化采样策略
  - 动态采样 vs. 静态采样
  - 与其他动态 Transformer 的比较
- 5.4 与其他 SOTA 方法的比较
- 5.5 可视化
- - 不同解码器层的采样点
  - 文本到图像编码器注意力图的可视化
六、结论

写在前面

这几天练的丹不行，但论文还是得继续读哇，也得加快效率了~~

这是一篇关于动态 Transformer 解码器的文章，看这个标题很有意思，于是拿来读读。

论文地址：Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding
代码地址：论文未提供
预计提交于：IEEE 某个顶会
Ps：2023 年每周一篇博文，主页更多干货，欢迎关注呀，期待 5 千粉丝有你的参与呦~

一、Abstract

多模态 Transformer 在视觉定位任务上能够很好的对齐图像和文本，但自注意力机制使得仅有编码器参与的 Transformer 框架，例如 TranVG（RIS 系列：TransVG: End-to-End Visual Grounding with Transformers 论文阅读笔记）中的计算复杂度很高。于是本文提出 Dynamic MDETR，将整个定位过程拆分为编码和解码两阶段。鉴于图像中高度的空间冗余，于是设计动态 Transformer 解码器，利用空间冗余先验来加快视觉定位过程。动态解码器由一个 2D 自适应采样模块和一个文本引导的解码模块组成。通过预测与参考点相关的 offsets，采样模块旨在选择那些包含信息量的 patches，而解码块则通过执行图像和文本特征间的交叉注意力来提取出被定位的目标信息。这俩模块可选择性堆叠从而逐渐地填补模态鸿沟，并逐渐地提炼被定位目标的参考点，最终实现视觉定位。实验效果很好。此外，为验证泛化性，建立第一个一阶段的 CLIP 视觉定位框架来实现 SOTA 的性能。

二、引言

首先指出视觉定位的定义，意义。现有的视觉定位方法可划分为两阶段方法和单阶段方法。两阶段方法首先通过离线的检测器生成 Proposals，并计算这些 Proposals 和表达式的相似度，之后选择出最佳得分的 Proposal 作为最终的预测。而单阶段方法首先将语言特征融合到图像特征图中，然后直接地用预定义的 anchors 在网格图中预测 Bounding box。
两阶段方法受限于第一阶段中生成的区域质量，并且不能进行端到端训练。单阶段方法通过移除 Proposals 生成，加快了推理速度。但在网格图上预测每个点的做法未能捕捉图像中的物体联系。此外，一些简单的多模态融合操作，例如拼接等，也不能较好地捕捉跨模态交互。
Transformer 在视觉定位任务上也有一些工作，例如 TransVG。多模态 Transformer 简单且有效，但由于图像和文本之间的注意力操作使得其计算复杂度很高。实际上，并不是图像中的所有像素都对最后的预测有帮助，例如背景像素。而在视觉定位任务中，那些不相关的物体都可以视为冗余。

单模态任务中有一些工作尝试降低空间冗余（举例：Vit 中的 Token 改进版本：Token Mreging: Your Vit But Faster 论文阅读笔记），但这些模型的训练仍然计算成本高。同时不太清楚这些方法能否适用于多模态任务上，因为需要考虑多模态的信息关联。
本文提出 Dynamic MDETR，基于相对浅层的编码器用于跨模态特征融合与对齐，以及一个动态编码器用于定位目标。核心贡献在于多模态 Transformer 解码器，消除了基于输入图像尺寸的解码复杂度问题。核心设计在于 2D 几何空间中，语言引导的空间自适应采样。通过自适应地采样少量丰富信息的视觉 tokens 用于后续的多模态解码。而这一操作可以将计算复杂度降为与图像尺寸无关的常数，同时也能减少无关 tokens 对最终 bounding box 的影响。
下面是对 Dynamic MDETR 框架的介绍：首先视觉和语言 backbone 分别提取相应的特征，然后拼接为一个序列，送入到 Transformer 编码器中用于跨模态特征融合和对齐。在之后的动态 Transformer 解码器中，首先将语言信息注入到可学习的采样 query 中，之后动态解码器产生相对于参考点的 offsets，用于 2D 特征图上的特征采样。采样出的特征在语言 queries 的引导下送入标准的 Transformer 进行解码。最后，FFN 预测头直接回归出 bounding box 的 4D 坐标。
相比于 1D 采样，本文提出的 2D 采样有下列优势：基于双线性插值的 2D 采样模块是可微分的，于是可以固定采样点的数量从而降低训练成本；在整个图像上的空间自适应采样能够避免累计误差；2D 空间中的弹性采样能够辅助学习位置和几何信息。
实验结果表明 Dynamic MDETR 很有效。此外，进一步利用 CLIP 作为 Backbone 的情况下，Dynamic MDETR 达到了单阶段视觉定位任务的 SOTA。贡献总结如下：

提出 Dynamic MDETR 用于视觉定位任务，采用一个相对浅层的编码器用于跨模态特征融合与对齐，提出一个动态解码器用于文本引导的视觉定位；
在 2D 自适应采样下，提出的动态解码器采样 2D 空间中的小部分视觉特征，降低计算复杂度到常数级；
实验表明 Dynamic MDETR 的效果很好；
进一步将 CLIP 作为 Backbone，展示了 Dynamic MDETR 框架的泛化性和可拓展性。

三、相关工作

3.1 视觉定位

这一部分和引言开头内容重复，只是多举几个例子。

3.2 多模态 Transformer

介绍下预训练和单/双流方法的流程，缺点是计算复杂度随着序列长度的增长而呈平方增加。

3.3 有效的 Transformers

Transformer 中的自注意力机制使得模型在具有全局感受野和大尺度建模能力的同时，也有很高的内存和训练成本。于是一些降低模型冗余度的方法出现了，可将 $O(n^2)$ 降为 $O (n)$ 。
本文关注另一种形式的 Transformer，即、减少数据水平的冗余。有一些基于 tokens 的排序方法：DynamicViT、IA-RED²，一些 trick，例如 gumbel softmax，用于解决不可微问题。但在训练时，所有的 tokens 仍参与训练，因此这些方法仅能减少推理时的计算量。
受基于 offsets 的空间采样方法启发，本文基于可微分的双线性插值，提出 2D 自适应采样。与上述基于排序的方法相比，Dynamic MDETR 的采样模块能够使用少数量的弹性点用于训练和推理，从而减少了训练和推理时的计算复杂度。此外，Dynamic MDETR 保留了图像的 2D 结构和采样的视觉特征点，这能够很好地捕捉指代目标的位置、几何结构信息。

四、Dynamic MDETR

如上图所示，给定输入图像 $I\in\mathbb{R}^{3\times H\times W}$ 和指代表达式 $E=\{w_{i}\}_{i=1}^{L}$ ，其中 $w_{i}$ 是第 $i$ 个单词， $L$ 为表达式的长度。视觉定位旨在输出 bounding box 的坐标 $b = (x, y, w, h)$ ，其中 $(x, y)$ 为 box 的中心坐标， $(w, h)$ 为预测 bounding box 的宽和高。
Dynamic MDETR 有 4 个部分：特征编码器，多模态 Transformer 编码器，动态多模态 Transformer 解码器，预测头。首先从预训练的解码器中提取视觉和语言特征，然后将其拼接到同一个序列中。之后将 token 序列送入到 Transformer 编码器中进行跨模态特征对齐与融合，输出的序列再拆分为视觉和语言特征。不同于原始的 DETR 和 MDETR，本文直接使用语言特征作为 queries 而不是可学习的目标 queries。动态多模态 Transformer 解码器仅利用 2D 自适应采样，挑选出少量的样本特征点，在语言 queries 的引导下将这些视觉特征解码。最后，基于 MLP 的预测头回归出 Bounding box。

4.1 预备知识

4.1.1 Multimodal Transformer

query embedding： $Q\in\mathbb{R}^{M\times C}$ ，key embedding： $K\in\mathbb{R}^{N\times C}$ ，value embedding： $V\in\mathbb{R}^{N\times C}$ 。
$\begin{aligned} \mathrm{Attention}(Q,K,V)&=\mathrm{softmax}(\frac{QK^{\mathrm{T}}}{\sqrt{d_{k}}})V\\ \mathrm{MHA}(Q,K,V)& =\text{Concat}(\text{head}_1,\cdots,\text{head}_H)W^O \\ \mathrm{head}_{i}& =\text{Attention}(QW_i^Q,KW_i^K,VW_i^V) \end{aligned}$

4.1.2 DETR 和 MDETR

第一段介绍下 DETR 的流程及优点，MDETR 的组成。
第二段表明 Dynamic MDETR 与这两种方法的不同之处：在 Transformer 解码器中引入 2D 自适应采样，使得解码器能够动态地选择少数量的视觉特征，例如 9% 的点；Dynamic MDETR 采用语言特征作为 queries 而不是可学习的位置 embedding，能够直接采样包含信息的视觉特征，从而在语言的引导下，在语义上聚合视觉线索。

4.2 特征编码器

采用离线的特征编码器 ResNet 加 Transformer 编码器或 ViT 作为视觉 Backbone，DETR 的权重进行初始化。对于 ViT 作为 Backbone 的情况下，采用 CLIP 预训练的权重。Bert 作为语言编码器，采用非级联的 Bert 或者 CLIP 中预训练的文本编码器权重。给定图像-表达式对 $< I, E >$ ，视觉编码器的输出为 ${Z}_v\in\mathbb{R}^{{N}_v\times C_v}$ ，语言编码器的输出为 ${Z}_l\in\mathbb{R}^{{N}_l\times C_l}$ ，其中 $N_{\{v,l\}}$ 表示 token 的数量， $C_{\{v,l\}}$ 表示通道的数量。和其他方法类似，利用单层的全连接层将每个模态的特征映射到相同的维度，于是得到视觉特征 ${F}_v\in\mathbb{R}^{{N}_v\times C}$ 和语言特征 ${F}_l\in\mathbb{R}^{{N}_l\times C}$ 。最后拼接这些特征为一个序列 $F=[F_v;F_l]\in\mathbb{R}^{(N_v+N_l)\times C}$ 输入到多模态 Transformer 编码器中。

4.3 多模态 Transformer 编码器

多模态 Transformer 编码器包含 $M$ 个标准的 Transformer 编码器层，输入为 $F$ 。类似 DETR，在每个编码器的输入中添加一个可学习的位置 embedding $P\in\mathbb{R}^{({N}_v+N_l)\times C}$ 。于是第 $i$ 层的计算如下：
$\begin{aligned} &Q_{E}^{i} =K_E^i=V_E^i=F^{i-1}\\ &\hat{F}^{i} =\mathrm{LN}(Q_E^i+\mathrm{MHA}(Q_E^i+P,K_E^i+P,V_E^i)) \\ &F^{i} =\mathrm{LN}(\hat{F^i}+\mathrm{FFN}(\hat{F^i})) \end{aligned}$ 其中 $F^0=F$ 。多模态 Transformer 编码器的输出为 $F_E=F^M$ 。
在多模态 Transformer 编码器之后，将输出的 $F_E$ 再拆分为视觉特征 $F_v\in\mathbb{R}^{{N}_v\times C}$ 和语言特征 ${F}_l\in\mathbb{R}^{{N}_l\times C}$ ，将位置 embedding $P$ 划分为视觉位置 embedding $P_v\in\mathbb{R}^{{N}_v\times C}$ 和语言位置 embedding $P_l\in\mathbb{R}^{{N}_l\times C}$ 。之后将这些特征同位置 embedding 一起输入到动态 Transformer 解码器中。

4.4 动态多模态 Transformer 解码器

多模态 Transformer 编码器的计算量非常大，于是本文引入动态采样到多模态 Transformer 中，并提出一种动态多模态 Transformer 解码器，仅需要少量有区分性的视觉特征，而消除了需要依赖于输入图像尺寸的解码复杂度问题。
动态多模态 Transformer 解码器有 $N$ 层，每层由两个子模块组成：2D 自适应采样+文本引导的解码。前者在 2D 特征图上采样少数量的空间点，后者解码这些采样特征。

4.4.1 2D 自适应采样

如上图 (a) 所示，提出的 2D 自适应采样模块在 2D 图像空间上采样视觉特征，通过预测相关的 offsets 来得出参考点。随着解码器层不断加深，采样点也会逐渐地汇聚在指代目标上，要么落在边界内或者边界上。因此，2D 自适应采样方法能够提取出被定位目标上有区分性的点，因此能更好的捕捉几何关系。
2D 自适应采样模块由三部分组成：一个自适应 query 生成器，一个 offsets 生成器，一个特征采样模块。以第 $i$ 层解码器层为例，首先在语言 queries 上执行平均池化，得到语言 query $f_i^i\in\mathbb{R}^C$ 。然后拼接最后一层的采样 query $f_i^{i-1}\in\mathbb{R}^C$ 和语言 query $f_i^i\in\mathbb{R}^C$ ，之后送入到两层 MLP 生成语言引导的采样 query $f_s^i\in\mathbb{R}^C$ ，接着生成下一次的 offsets：
$f_s^i=\text{MLP}([f_s^{i-1};f_l^i])$ 将采样 query $f_s^i$ 输入到 offset 生成器（线性层）中，来输出与参考点相关的 offsets：
$\{(\Delta x_j^i,\Delta y_j^i)\}_{j=1}^P=\mathrm{Linear}(f_s^i)$ 其中 $P$ 为采样点的数量， $(\Delta x_j^i,\Delta y_j^i)$ 为预测的 offsets。于是在得到参考点 $(x_r^i,\Delta y_r^i)$ 的情况下，绝对采样位置可表示为：
$\begin{cases}x_j^i=x_r^i+\Delta x_j^i\\y_j^i=y_r^i+\Delta y_j^i&\end{cases}$ 根据这些采样点的位置，在视觉特征图上执行双线性插值得到采样的特征，用于后续文本引导的解码。采样出的视觉特征可表示为 $F_s^i\in\mathbb{R}^{R\times C}$ 。类似的，采样相应的位置 embeddings $P_s^i\in\mathbb{R}^{P\times C}$ 。
参考点的坐标初始化为图像中心归一化坐标，即 $(0.5, 0.5)$ 。采样 query 是随机初始化的可学习向量，语言 queries 来源于多模态 Transformer 编码器。在第一层的动态解码器层中，采样 query 生成器仅采用采样 query 作为输入而无需融合语言 queries。

4.4.2 文本引导解码

文本引导的解码模块输入为采样特征 $F_s^i\in\mathbb{R}^{P\times C}$ 及其位置编码 $P_s^i\in\mathbb{R}^{P\times C}$ ，结构类似于 Transformer 编码器-解码器。编码器旨在提取采样的视觉特征上下文信息，其输入为文本化的表示及语言 queries $F_l^i\in\mathbb{R}^{N_l\times C}$ + 位置 embedding $P_l$ 。对于编码器来说，计算如下：
$\begin{aligned} &Q_{DE}^i=K_{DE}^i=V_{DE}^i=F_{s}^i\\ &\begin{aligned}\hat{F}_s^i=\text{LN}(Q_{DE}^i+\text{MHA}(Q_{DE}^i+P_s^i,K_{DE}^i+P_s^i,V_{DE}^i))\end{aligned} \\ &\hat{F}_s^i=\mathrm{LN}(\hat{F}_s^i+\mathrm{FFN}(\hat{F}_s^i)) \end{aligned}$ 其中 $\text{MHA}(\cdot)$ 为多头注意力， $\mathrm{FFN}(\cdot)$ 为前向传播网络， $\mathrm{LN}$ 为层正则化。

对于解码器来说，计算如下：
$\begin{aligned} &K_{DD}^{i} =V_{DD}^i=\hat{F_s^i},Q_{DD}^i=F_l^i \\ &\hat{F}_l^{i+1} \begin{aligned}=\text{LN}(Q_{DD}^i+\text{MHA}(Q_{DD}^i+P_{l},K_{DD}^i+P_{s}^i,V_{DD}^i))\end{aligned} \\ &F_{l}^{i+1} =\mathrm{LN}(\hat{F}_l^{i+1}+\mathrm{FFN}(\hat{F}_l^{i+1})) \end{aligned}$

4.4.3 建模效率的讨论

如上图所示，左边经典的 Transformer 结构能够有效建模两种模态间的关联，但自注意力和跨模态注意力使得计算成本非常高。相比之下，动态 MDETR 提出将视觉定位过程分解为编码和解码阶段。在编码阶段，主要关注于视觉语言模态的特征对齐，在解码阶段，通过文本来提取被定位目标的视觉位置。通过 2D 自适应采样，动态 Transformer 解码器使用少数量的采样点，例如 36 个点来减少计算量。

4.5 预测头

根据动态 Transformer 解码器的输出 $F_D\in\mathbb{R}^{N_l\times C}$ 和填充的 mask $m_l\in\mathbb{R}^{N_l}$ ，计算无 mask 的平均 tokens $f_{reg}\in\mathbb{R}^{C}$ 。然后将 $f_{reg}$ 送入预测头中。预测头由 3 层全连接 + ReLU 激活层组成。预测头直接回归出 4D 的 bounding box 坐标：
$\hat{b}=(\hat{x},\hat{y},\hat{w},\hat{h})=\mathrm{MLP}(f_{reg})$ 其中 $(\hat{x},\hat{y})$ 为归一化的中心坐标， $(\hat{w},\hat{h})$ 为预测 bounding box 的宽度和高度。

4.6 损失函数

采用 L1 损失和尺寸不变的通用 IoU 损失作为优化目标。具体来说，将预测的 bounding box 视为 $\hat{b}={(\hat{x},\hat{y},\hat{w},\hat{h})}$ ，目标 Box 为 $b = (x, y, w, h)$ 。于是损失函数为：
$\mathcal{L}=\mathcal{L}_{L1}(b,\hat{b})+\mathcal{L}_{GIoU}(b,\hat{b})$ 其中 $\mathcal{L}_{L1}(\cdot)$ 和 $\mathcal{L}_{GIoU}(\cdot)$ 为 L1 损失和 GIoU 损失。

五、实验

5.1 数据集和评估指标

RefCOCO/RefCOCO+/RefCOCOg、ReferItGame、Flickr30K Entities。
Top-1 accuracy (IoU ≥ 0.5)。

5.2 实施细节

和 TransVG 类似，长边为 640，短边用 RGB 平均值填充到 640。RefCOCOg 句子长度 40，其他数据集 20。视觉 Backbone 初始化采用 ResNet，Transformer 编码器采用 DETR 的权重，语言编码器采用 BERT 无级联的版本。多模态编码器层和动态多模态解码器层的数量都为 3。采样点的数量默认为 36 点。
采用 Adamw 优化器，90 epoches。权重衰减 $10^{-4}$ ，dropout ratio 0.1。编码器的初始学习率为 $10^{-5}$ ，其他参数为 $10^{-4}$ 。在 RefCOCO/RefCOCO+/RefCOCOg 和 ReferitGame 数据集上，在第 60 个 epoch 时，学习率降低 10%。在 Flickr30K Entities 数据集上，训练 60 个 epoches，在第 40 个 epoch 时，学习率降低 10%，也不设置权重衰减和 dropout。Batch_size 128。数据增强采用 TransVG 相同的手段。
对于 CLIP 编码器，采用 ViT-B/16。多模态编码器层和动态多模态解码器层的数量也都为 3。采样点的数量默认为 160 点。训练 60 个 epoches，在第 45 个 epoch 时，学习率降低 10%。预训练特征编码器的初始学习率设为 $5\times 10^{-6}$ ，其他参数为 $10^{-4}$ 。在初始的 10 个 epoches 中，冻结 CLIP 编码器。而在 ReferItGame 数据集上，同样移除 dropout 和权重衰减，训练 90 个 epoches，在第 60 个 epoches 上，权重衰减 10%，但不冻结 CLIP 权重。对于 Flickr30K Entities 数据集，训练模型 40 个 epoches ，在第 30 个 epoches 上，权重衰减 10%，在最初的 6 个 epoches 上，冻结 CLIP，Batch_size 为 56。
这一部分应该是换人写了，太水了，整个实验细节写的罗里吧嗦。废话太多，有凑字数的嫌疑。

5.3 消融实验

以 ResNet-50 为 Backbone，在 RefCOCOg-umd 验证集上进行实验。

动态多模态编码器中的关键设计

精度和计算量的权衡

不同的初始化采样策略

动态采样 vs. 静态采样

与其他动态 Transformer 的比较

5.4 与其他 SOTA 方法的比较

5.5 可视化

不同解码器层的采样点

文本到图像编码器注意力图的可视化

六、结论

本文解决了图像中的空间冗余问题，提出了 Dynamic MDETR 用于视觉定位。核心设计是一个动态多模态 Transformer 解码器，由一个 2D 自适应采样模块和一个文本引导的解码模块组成。动态多模态 Transformer 解码器能够选择少部分的信息点来加快后续的文本引导的解码过程。实验很有效。此外，还验证了 Dynamic MDETR 的泛化能力，通过建立第一个 CLIP 的视觉定位框架实现了 SOTA 的性能。希望可以拓展到视频领域的空间定位上。

写在后面

前面部分一直到方法写的还可以，但从实验部分到后续结论之前，感觉是换人写了，后面太啰嗦了，太多废话，能看出来有些东西就是硬凑字数好突出工作量。如果代码不放出来，这篇文章的贡献也不如作者说的那么强，毕竟之前单模态图像领域已经有很多减小冗余的工作了。

【计算机网络】第三章：数据链路层（上） iFulling 计算机网络笔记计算机网络网络网络协议笔记
本篇笔记课程来源：王道计算机考研计算机网络接下节：【计算机网络】第三章：数据链路层（下）【计算机网络】第三章：数据链路层（上）一、数据链路层的功能1.基本概念2.功能总览二、组帧（封装成帧）1.主要实现2.字符计数法3.字节填充法4.零比特填充法5.违规编码法三、差错控制1.主要实现2.检错编码Ⅰ.奇偶校验码Ⅱ.循环冗余校验码3.纠错编码Ⅰ.海明校验码四、流量控制、可靠传输1.相关机制Ⅰ.滑动窗口
C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
【AI大模型】Transformer架构位置编码我爱一条柴ya 学习AI记录人工智能神经网络 ai AI编程
Transformer架构中的位置编码(PositionalEncoding)是其核心设计之一，用于解决一个关键问题：Self-Attention机制本身对输入元素的顺序是“无感知”的(permutationinvariant)。问题：为什么需要位置编码？Self-Attention的本质缺陷：Self-Attention通过计算所有元素对之间的关联来工作。然而，它只关心元素是什么(x_i的内容)
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
notepad++正则表达式痞子IT 嵌入式开发语言 xml c语言
notepad++正则表达式使用笔记：1.查找空行：^\s*\r\n2.排除以（开头的行：^(?!（).*$3.查找第二行以A-D开头的情况：(\r\n)(^[A-D])4.查找不含有helloworld的行：^(?!.*helloworld).*$5.查找不以com结尾的字符串：^.*?(?|"']|"[^"]*"|'[^']*')*?(?:/>|>.*?)11.查找非换行空白：(\s)(?)及
SystemVerilog LRM 学习笔记 -- clocking块
1clocking...endclocking块clocking块是SV新feature，主要是为了更好解决testbench和DUT之间的timing和同步建模的问题，可以使user基于clockcycle在更高的抽象层次上写testbench(如“##3”，表示三个clock)。clocking只能在module/interface/checker/program中声明，不能在function
JavaWeb（苍穹外卖）--学习笔记03（登录生成令牌）老虎0627 JavaWeb（苍穹外卖）学习笔记 java
前言本片文章是学习B站黑马程序员苍穹外卖的学习笔记。在Day01（如果学到登录界面这里卡住了，可以看看这篇文章），登陆界面的后端实现大致可以分为两部分登录功能和登录校验，其中登陆校验的实现是基于令牌JWT技术来实现会话追踪（校验部分还有拦截器Interceptor这个我没太学懂视频也没提，以后在更）JWT令牌基本概念JWT是一种在Web应用程序，简单且安全地处理用户身份验证和信息交换的技术，首先我
Vue3-尚硅谷笔记八月份的天气 Vue3-笔记笔记
1.Vue3简介2020年9月18日，Vue.js发布版3.0版本，代号：OnePiece（n经历了：4800+次提交、40+个RFC、600+次PR、300+贡献者官方发版地址：Releasev3.0.0OnePiece·vuejs/core截止2023年10月，最新的公开版本为：3.3.41.1.【性能的提升】打包大小减少41%。初次渲染快55%,更新渲染快133%。内存减少54%。1.2.【
基于大模型的急性出血坏死性胰腺炎预测技术方案 LCG元人工智能 python
目录一、算法实现伪代码1.数据预处理与特征工程2.大模型训练（以Transformer为例）3.实时预测与动态调整二、模块流程图1.术前预测流程2.术中动态决策流程3.术后护理流程三、系统集成方案1.系统架构图2.核心模块交互流程四、系统部署拓扑图1.物理部署拓扑2.部署说明五、技术验证方案1.交叉验证流程2.实验验证设计六、健康教育模块示例一、算法实现伪代码1.数据预处理与特征工程#数据清洗与归
Golang基础笔记十之goroutine和channel
本文首发于公众号：Hunter后端原文链接：Golang基础笔记十之goroutine和channel这一篇介绍Golang里的goroutine和channel通道。以下是本篇笔记目录：goroutinechannelgoroutine与channel的使用1、goroutinegoroutine是一种轻量级线程（用户态线程），由Go运行时管理而非操作系统，它是Go并发模型的核心，能高效处理大量
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
计算机网络（王道考研）笔记个人整理——第六章：应用层 onlyTonight 计算机网络计算机网络考研笔记
第六章：应用层点击上方专栏查看六章全部笔记个人笔记整理位置：个人笔记完整版b站视频：王道考研（2019版）概述应用层对应用程序的通信提供服务。应用层协议定义：应用程序交换的报文类型（请求or响应）；各个报文类型的语法，如报文中的各个字段及其详细描述；字段的语义，即包含在字段中的信息的含义；进程何时、如何发送报文，以及对报文进行响应的规则。功能：文件传输、访问和管理；电子邮件；虚拟终端；查询服务和远
笔记本电脑外接屏幕/台式电脑屏幕调节亮度方法小宇蛋电脑显示器
我之前找了很多办法都不顶用，因为屏幕电源和主机电源不一个，所以无法通过系统调节屏幕亮度。但其实办法很简单很简单，就问卖你屏幕的店家调节亮度的按钮在哪，直接通过屏幕上的按钮调节。
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
【Spring AI】09. ETL 管道
文章目录ETLPipelineAPI概述入门指南ETL接口和实现DocumentReaderJsonReaderTextReaderPagePdfDocumentReaderParagraphPdfDocumentReaderTikaDocumentReaderDocumentTransformerTextSplitterTokenTextSplitterContentFormatTransfor
huggingface 笔记： Trainer UQI-LIUWJ 笔记人工智能
Trainer是一个为Transformers中PyTorch模型设计的完整训练与评估循环只需将模型、预处理器、数据集和训练参数传入Trainer，其余交给它处理，即可快速开始训练自动处理以下训练流程：根据batch计算loss使用backward()计算梯度根据梯度更新权重重复上述流程直到达到指定的epoch数1配置TrainingArguments使用TrainingArguments定义训练
huggingface笔记：文本生成Text generation UQI-LIUWJ python库整理笔记深度学习 python
1加载LLM模型fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorchimportosmodel=AutoModelForCausalLM.from_pretrained("gpt2",device_map="auto",#自动分配到所有可用设备（优先GPU）torch_dtype=torch.bfloat16)2编码
揭秘图像LLM：从像素到语言的智能转换 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉深度学习人工智能机器学习算法语言模型
图像LLM是怎么工作图像LLM（多模态大语言模型）的核心是将图像转化为语言模型能理解的“语言”，并与文本深度融合。以下结合CLIP、DALL-E、GPT-4V等主流模型，通过具体例子说明其工作机制：一、图像→特征向量：从像素到“密码”例子：识别“戴墨镜的猫”视觉编码器提取特征使用ResNet或ViT（VisionTransformer）作为图像编码器，将图片分解为局部像素块（如16x16像素）。每
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 语言模型人工智能自然语言处理算法均值算法 prompt
LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其在于跨模态对齐技术——通过训练将图像和文本映射到同一语义空间，使语言模型能够理解视觉信息。一、为什么LLM能识别图像？核心技术原理1.跨模态对齐：让图像与文本说同一种语言向量空间统一：图像通过CNN或ViT编码为特征向量（如512维），文本通过Transformer编码为语义向量（如768维）。CLIP等模型通过对比学习优化编码
python transformers库笔记（BertForTokenClassification类）夏末蝉未鸣01 自然语言处理 python transformer 自然语言处理
BertForTokenClassification类BertForTokenclassification类是HuggingFacetransformers库中专门为基于BERT的序列标注任务（如命名实体识别NER、词性标注POS）设计的模型类。它在BERT的基础上添加了一个线性分类层，用于对每个token进行分类。1、特点任务类型：专为Token-level分类设计，即对输入序列中的每一个tok
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
debian-arm64-docker 笔记
文章目录构建debian-arm64docker宿主机系统UBUNT20.04-X86下环境安装下载文件拷贝文件文件释放修改文件qemu-arm-static环境切换环境debian网络配置,分区配置域名解析服务器串口控制台调整打包debianarm64根文件系统debian-arm64宿主机系统安装基础软件基础工具安装docker安装ubuntu20.04-X86上制作arm64-docker镜
Linux笔记之Docker安装，基于Debian 11（bullseye）名字太长真的很奇怪꒰⑅•ᴗ•⑅꒱ Linux linux debian docker
前置条件Debian平台版本为Debian11（bullseye）安装的是DockerCommunityEdition（docker-ce）安装步骤1.重新安装卸载旧版，初次安装请跳过sudoapt-getremovedockerdocker-enginedocker.iocontainerdrunc2.初次安装时，安装依赖sudoapt-getinstallapt-transport-https
CentOS6的“ifupdown“与Debian的“ifupdown“有什么不同? 笔记250706
CentOS6的"ifupdown"与Debian的"ifupdown"有什么不同?笔记250706CentOS6与Debian的ifupdown深度对比一、架构与设计差异维度CentOS6Debian核心组件Shell脚本集合二进制程序（C语言）配置存储分散式：/etc/sysconfig/network+/etc/sysconfig/network-scripts/ifcfg-*集中式：/et
《算法笔记》学习日记——4.4 贪心囷囷《算法笔记》学习日记贪心算法算法 c语言数据结构 c++
目录4.4贪心问题A:看电视问题B:出租车费问题C:ToFillorNottoFill问题D:RepairtheWall问题E:FatMouse'sTrade问题F:迷瘴问题G:找零钱小结4.4贪心CodeupContestID:100000584问题A:看电视题目描述暑假到了，小明终于可以开心的看电视了。但是小明喜欢的节目太多了，他希望尽量多的看到完整的节目。现在他把他喜欢的电视节目的转播时间表
crazyswarm无人机集群搭建笔记（一）资料索引 X_SWARM 无人机集群无人机笔记 stm32
前言为了开展无人机集群虚实结合任务调度算法测试，这次采购了crazyflie套件，本系列主要记录从零开始搭建crazyswarm集群的详细步骤。本节主要包含crazyflie安装调试主要参考的文章和教程。一、crazyflie安装使用基本资料1.Bitcraze官方网站（1）Bitcraze官方网站主页（2）Bitcraze官网安装教程（3）crazyswarm2官方文档（4）crazyswarm
深入理解Spring Bean的生命周期
在Spring框架的学习中，Bean的生命周期是一个核心知识点，它贯穿了从Bean的创建到销毁的全过程。掌握Bean的生命周期，不仅能帮助我们更好地理解Spring容器的工作原理，还能在实际开发中更灵活地控制Bean的行为。本文将基于学习笔记，详细解析Bean生命周期的七个阶段，并补充关键细节和实践要点。一、Bean定义阶段：蓝图的绘制Bean定义阶段就如同建筑前的设计图纸绘制，它决定了Bean的
20250708-02-redis通用key操作命令_笔记
一、Redis1.通用键值操作1）键的查看操作keys命令基本功能：查询当前数据库中的所有key，支持精确查询和模糊查询与memcached区别：memcached无法查询所有key，这是Redis特有的功能查询示例：keys*返回所有key（如"age"和"site"）keyssite精确查询指定keykeyss*查询以s开头的key通配符三种通配符：*：匹配任意多个字符（如key
redis学习笔记
1.在docker上安装redis之后，具体可以看我之前的docker教程一.进入docker的redis容器中#进入docker的redis容器中dockerexec-itredis/bin/bash#启动redisredis-cli#设置键setmykeyabc#取出键getmykey#删除键delmykey二，Redis数据类型字符串（string），哈希（hash），列表（list），集合
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记