小仙女呀灬

论文：TransVG: End-to-End Visual Grounding with Transformers

作者

Abstract

在本文中，我们提出了一个简洁而有效的基于转换的视觉基础框架，即TransVG，以解决将语言查询与图像上相应区域的基础任务。最先进的方法，包括两阶段或一阶段的方法，依赖于一个复杂的模块和手动设计的机制来执行查询推理和多模式融合。然而，在融合模块设计中，由于查询分解和图像场景图等机制的参与，使得模型很容易过度适应特定场景的数据集，限制了视觉语言环境之间的充分交互。为了避免这种警告，我们建议通过利用Transformer建立多模态对应关系，并通过经验证明，复杂的融合模块（例如，模块化注意网络、动态图和多模态树）可以被具有更高性能的Transformer-encoder层的简单堆栈所取代。此外，我们将视觉基础重新表述为一个直接坐标回归问题，并避免对一组候选对象（即区域建议或锚定框）进行预测。在五个广泛使用的数据集上进行了广泛的实验，我们的TransVG创造了一系列最先进的记录。我们构建了基于Transformer的可视化接地框架的基准，并使代码在https://github. com/djiajunustc/TransVG。

Introduction

Visual Grounding（也称为指称expression comprehension[31,60]、phrase localization [23,38]和natural language object retrieval [21,25]）旨在预测语言表达式所指区域在图像上的位置。这项技术的发展有很大潜力为自然语言表达和物质世界的视觉成分提供智能接口。
解决此任务的现有方法可以大致分为两阶段和一阶段管道，如图1所示。具体而言，两阶段方法[31,34,46,60]首先生成一组稀疏区域建议，然后利用区域表达式匹配找到最佳建议。单阶段方法[9,27,56]在对象检测器的中间层执行视觉语言融合，并在预定义的密集anchors上以最大分数输出框。

多模态融合与推理在文献[1,35,49,54,65]中得到了广泛的研究，是视觉基础研究的核心问题。一般来说，早期的两阶段和两阶段方法以简单的方式处理多模态融合。具体而言，两阶段相似网络[46]使用MLP测量区域和表达式嵌入之间的相似性，一阶段FAOA[56]通过直接级联将语言向量编码为视觉特征。这些简单的设计是有效的，但会导致次优结果，特别是在长而复杂的语言表达式上。下面的研究提出了不同的体系结构来提高性能。在两阶段方法中，模块化注意网络[59]、各种图[48,52,53]和多模态树[28]被设计用于更好地建模多模态关系。单阶段方法[55]还通过提出多轮融合模块探索了更好的查询建模。
尽管效果很好，但这些复杂的融合模块是基于特定预定义的语言查询或图像场景结构构建的，其灵感来自于人类的先验知识。通常，人工设计的机制参与到融合模块中会使模型过度适应特定场景，例如特定的查询长度和查询关系，并限制可视化语言上下文之间的充分交互。此外，尽管视觉基础的最终目标是定位所引用的对象，但以前的大多数方法都以间接方式将查询对象基础化。它们通常定义语言引导的候选预测、选择和细化的代理问题。通常，候选区域为稀疏区域方案[60,31,46]或密集锚[56]，从中选择并优化最佳区域以获得最终接地盒。由于这些方法的预测是由候选对象做出的，因此性能很容易受到生成建议（或预定义锚）的先验知识和为候选对象分配目标的启发式方法的影响。
在本研究中，我们探索了一种避免上述问题的替代方法。形式上，我们引入了一个简洁新颖的基于转换器的框架，即TransVG，以有效地解决Visual grounding的任务。我们的经验表明，结构化的融合模块可以被transformer encoder层的简单堆栈所取代。特别是，Transformer的核心部分（即attention层）已经准备好跨视觉和语言输入建立模态内和模态间的对应关系，尽管我们没有预先定义任何特定的融合机制。此外，我们发现直接回归盒坐标比以前的方法更能间接地对查询对象进行grounding处理。我们的TransVG直接输出4维坐标以使对象接地，而不是基于一组候选框进行预测。
我们提议的TransVG管道如图1（c）所示。我们首先将RGB图像和语言表达式输入到两个兄弟分支中。在这两个分支中分别应用视觉transformer和语言transformer对视觉域和语言域中的全局线索进行建模。然后，将抽象的视觉标记和语言标记进行融合，利用视觉语言transformer进行跨模态关系推理。最后，将参考对象的盒坐标直接回归，进行grounding。我们在五个流行的视觉基础数据集上对我们的框架进行基准测试，包括ReferItGame[23]、Flickr30K实体[38]、RefCOCO[60]、RefCOCO[60]、Refcolog[31]，我们的方法设置了一系列最先进的记录。值得注意的是，我们提出的TransVG达到了70.73%, 79. 10%和78.35%在ReferItGame、Flickr30K和RefCOCO数据集的测试集，与实力最强的竞争对手相比，提高了6.13%，5.80%和6.05%。

In all，我们的贡献有以下三点：
- 我们提出了第一个基于transformer的可视接地框架，该框架拥有更整洁的体系结构，但比流行的单阶段和两阶段框架实现了更好的性能。
- 我们提出了一个优雅的观点，即通过transformer均匀地捕获模态内和模态间的上下文，并将视觉接地描述为一个直接坐标回归问题。
- 我们进行了大量的实验来验证我们的方法的优点，并在几个流行的基准上显示了显著改进的结果。

Related work

2.1Visual Grounding

视觉基础的最新进展可以大致分为两个方向，即：两阶段法[19,20,28,46,48,52,59,63,68]和一阶段法[9,27,42,55,56]。我们将在下面简要回顾它们。

两阶段法

两阶段方法的特点是在第一阶段生成区域建议，然后在第二阶段利用语言表达式选择最佳匹配区域。通常，使用无监督方法[37,46]或预先训练的对象检测器[59,63]生成区域建议。第二阶段应用二元分类[46,64]或最大裕度排序[31,34,47]的训练损失，以最大化正向对象查询对之间的相似性。先锋研究[31,47,60]在两阶段框架下取得了良好的结果。早期工作MattNet[59]引入了模块化设计，通过更好地建模主题、位置和关系相关的语言描述，提高了接地精度。最近的一些研究通过更好地建模对象关系[28,48,52]，加强对应学习[29]，或利用短语共现[3,7,13]，进一步改进了两阶段方法。

一阶段法

单阶段方法摆脱了两阶段模式下的计算密集型对象建议生成和区域特征提取。相反，语言上下文与视觉特征紧密融合，并且进一步利用语言相关特征映射以滑动窗口方式执行边界框预测。开创性的工作FAOA[56]将文本表达式编码为语言向量，并将语言向量融合到YOLOv3检测器[40]中，以固定引用的实例。RCCF[27]将视觉接地问题表述为相关过滤过程[4,17]，并选取相关热图的峰值作为目标对象的中心。最近的工作ReSC[55]设计了一个递归子查询构造模块，以解决FAOA[56]对复杂查询的限制。

2.2Transformer

Transformer首次提出在[45]，以解决神经机器翻译（NMT）。Transformer层的主要组件是attention模块，它并行扫描输入序列，并使用自适应权重聚合整个序列的信息。与RNN中的循环单元相比[18,32,44]，注意机制在处理长序列时表现出更好的性能。这种优势引起了人们对Transformer在NLP任务[11,12,39,66]和语音识别[33,50]中应用的研究兴趣。

Transformer In Vision tasks

受Transformer在神经机器翻译中的巨大成功的启发，提出了一系列适用于视觉任务的Transformer[5、6、8、14、22、51、62、67 ]。深入的工作DETR[5]将目标检测作为一个集预测问题。它引入了一小组可学习的对象查询，利用注意机制解释全局上下文和对象关系，并并行输出最终的预测集。ViT[14]表明，纯Transformer可以在图像分类任务上实现优异的性能。最近，在[6]中引入了预训练图像处理转换器（IPT），以解决低级视觉问题，例如： denoising, super-resolution and deraining。

Transformer in Vision-Language Tasks

在BERT[12]强大的预训练模型的推动下，一些研究人员开始研究视觉语言预训练（VLP）[10,26,30,43,57]，以联合表示图像和文本。通常，这些模型将对象建议和文本作为输入，并设计多个transformer-encoder层用于联合表示学习。引入了大量的预训练任务，包括图像文本匹配（ITM）、词区域对齐（WRA）、蒙蔽语言建模（MLM）、蒙蔽区域建模（MRM）等，尽管基本单元（即transformer编码器层）相似，VLP的目标是学习具有大规模数据的通用视觉语言表示，以促进下游任务。相比之下，我们专注于开发一种新的基于transformer的可视接地框架，并学习使用少量可视接地数据执行同构多模态推理。

3 Transformers for Visual grounding

这项工作中，我们提出了Visual grounding Transformer（TransVG），这是一种基于transformer编码器堆栈和直接盒坐标预测的Visual grounding任务的新框架。如图2所示，给定一个图像和一个语言表达式作为输入，我们首先将它们分成两个兄弟分支，即。视觉分支和语言分支，生成视觉和语言特征嵌入。然后，我们将多模态特征嵌入到一起，并附加一个可学习标记（称为[REG]标记）来构造视觉语言融合模块的输入。视觉语言Transformer利用自我注意机制对语内和语间语境进行建模，将不同语态的输入标记均匀地嵌入到一个共同的语义空间中。最后，利用[REG]token的输出状态直接预测预测头中参考对象的4维坐标。
在下面的小节中，我们首先回顾了Transformer的初步设计，然后详细阐述了用于视觉接地的Transformer设计。

3.1Preliminary准备

在详细介绍TransVG的体系结构之前，我们简要回顾了[45]中提出的用于机器翻译的传统Transformer。Transformer的核心部件是注意力机制。给定查询嵌入fq、密钥嵌入fk和值嵌入fv，单个头部注意层的输出计算如下：
式中 $d^{k}$ 为 $f^{k}$ 的channel dimension。与经典的神经序列转导模型类似，传统的Transformer具有编码器-解码器结构。然而，在我们的方法中，我们只使用transformer编码器层。

具体地说，每个Transformer编码器层有两个子层，即，一个多头自我注意层和一个简单的前馈网络（FFN）。多头注意是单头注意的一种变体（如函数1），selfattention表示查询、键和值来自同一个嵌入集。FFN是由完全连接层和ReLU激活层组成的MLP。
在Transformer Encoder层中，每个子层被放入residual structure残余结构中，其中在残余连接之后执行层归一化[2]。让我们将输入表示为xn，Transformer Encoder层中的过程为：
LN（·）表示层规范化，FMSA（·）表示多头自注意层，FFFN（·）表示前馈网络。

3.2TransVG Architecture

如图2所示，TransVG中有四个主要组件：（1）视觉分支，（2）语言分支，（3）视觉语言融合模块，（4）预测头。

Visual Branch

可视分支从卷积主干网络开始，然后是可视转换器。我们利用常用的ResNet[16]作为骨干网络。视觉Transformer由6个Transformer encoder层组成。每个Transformer encoder层包括一个多头自关注层和一个FFN。在多头注意层中有8个头，在FFN中有2个FC层，后面是ReLU激活层。这两个FC层的输出通道尺寸分别为2048和256。
给定一个图像 $z_{0}∈R^{3×H0×W0}$ 作为该分支的输入，我们利用主干网络生成二维特征映射 $z∈R^{C×H×W}$ 。通常，通道尺寸CIS2048以及2D特征图的宽度和高度为原始图像尺寸（H=H032，W=W032）的132。然后，我们利用a1×1共旋层来减小ZTOCV=256的通道尺寸，得到 $z 0 \in R C v \times H \times W$ 。由于Transformer Encoder层的输入预期为1D矢量序列，因此我们进一步将Z‘’展平 $Z_{v}∈R^{Cv×N_{v}}$ ，其中Nv=H×w是输入token的数量。为了使视觉变换器对输入标记的原始2D位置敏感，我们按照[5,36]使用正弦空间位置编码作为视觉特征的补充。具体地说，位置编码与查询和密钥嵌入一起添加到每个Transformer Encoder层。视觉转换器并行进行全局视觉上下文推理，并输出与ZV形状相同的高级视觉嵌入FV。

Linguistic Branch

语言分支是视觉分支的兄弟。我们的语言分支包括一个标记嵌入层和一个语言转换器。为了充分利用预训练的Bert模型[12]，该分支的体系结构遵循Bert系列基本模型的设计。通常，语言转换器中有12个转换器编码器层。语言转换器的输出通道维度是Cl=768。
给定一个语言表达式作为该分支的输入，我们首先将每个单词ID转换为one-hot向量。然后，在token嵌入层，我们通过查找token表将每个热向量标记为语言token。我们遵循机器翻译[11,12,39,45]中的常见做法，在标记化语言表达式的开始和结束位置添加[CLS]标记和[SEP]标记。然后，我们将语言标记作为语言转换器的输入，生成高级语言嵌入 $f_{l}∈\R^{C_{l}×N_{l}}$ ，其中Nl是语言标记的数量。

Visual-linguistic Fusion Module

视觉语言融合模块（简称V-L模块）作为我们模型中融合多模态语境的核心组件，其体系结构简单而优雅。具体而言，V-L模块包括两个线性投影层（每个模态一个）和一个视觉语言转换器（具有6个转换器-编码器层的堆栈）。
给定Advanced visual token $f_{v}∈\R^{256×N_{v}}$ 脱离视觉分支和Advanced linguistic token $f_{l}∈\R^{768×N_{l}}$ 在语言分支之外，我们应用线性投影层将它们投影到具有相同通道维数的嵌入中。我们表示投影视觉嵌入和语言嵌入 $p_{v}∈\R^{C_{p}×N_{v}}$ 和 $p_{l}∈\R^{C_{p}×N_{l}}$ ，其中 $C_{p}=256$ 。然后，我们预先将可学习嵌入（即[REG]标记）添加到 $p_{v}$ 和 $p_{l}$ ，并将视觉语言转换器的联合输入标记表示为：
其中 $p_{r}∈\R^{C_{p}×1}$ 表示[REG]token。[REG]token在训练阶段开始时随机初始化，并使用整个模型进行优化。
在获得输入 $x_{0}∈\R^{Cp×（N_{v}+N_{l}+1)}$ 之后，在如上所述的联合嵌入空间中，我们通过同构方式执行模态内和模态间关系推理，将视觉语言转换器嵌入到公共语义空间中。为了保留位置和模态信息，我们将可学习的位置编码添加到每个transformer编码器层的输入中。
由于注意机制，可以在来自联合实体的每对token之间自由地建立对应关系，而不管它们的模态如何。例如，视觉标记可以关注视觉标记，也可以自由关注语言标记。典型地，[REG]标记的输出状态发展了一种通过视觉和语言上下文丰富的统一表示，并进一步用于框坐标预测。

Prediction Head

我们利用来自V-L模块的[REG]token的输出状态作为预测头的输入。为了执行框坐标预测，我们将回归块附加到[REG]标记。回归块由具有两个ReLU激活的256dim隐藏层和一个线性输出层的MLP实现。预测头的输出是4维框坐标。

3.2 Training Objective

与许多以前基于一组候选对象（即两阶段方法中的区域建议和一阶段方法中的锚定框）对参考对象进行接地的方法不同，TransVG直接推断一个4维向量作为要接地框的坐标。这简化了培训阶段的目标分配和正负示例挖掘过程，但也涉及到规模问题。具体地说，广泛使用的平滑L1损失往往是一个较大的预测误差，而当我们试图预测一个较小的损失时，即使它们的预测具有相似的相对误差，它也会变小。
为了解决这个问题，我们通过图像的比例标准化地面真值框的坐标，并涉及广义IoU损失[41]（GIoU损失），它不受比例的影响。
让我们用 $b = (x, y, w, h)$ 表示预测，用 $\hat{b}=(\hat{x},\hat{y},\hat{w},\hat{h})$ 表示归一化地面真值框。我们TransVG的训练目标是：

其中， $L_{smooth-l1}（·）$ 和 $L_{giou}（·）$ 分别是平滑l1损失和GIoU损失。 $λ$ 是GIoU损失的权重系数，用于平衡这两种损失。

Experiment

Ablation Study

我们展示了图3中RefCOCOg[31]测试集的四个示例的定性结果。我们观察到，我们的方法可以成功地建模具有复杂关系的查询，例如。G图3（c）中的“橙子夹在其他橙子和香蕉之间”。图3的第一行显示了[REG]标记对视觉语言转换器中视觉标记的注意。TransVG在与整体对象形状和位置相对应的参考对象上生成可解释的注意。

基于视觉注意和预测区域之间的对应关系，我们将[REG]标记的注意分数可视化到视觉语言转换器中间层的视觉标记上，以更好地理解TransVG。图4显示了[REG]标记在来自第二、第四和第六transformer编码器层的可视标记上的注意分数。在早期层（layer2），我们观察到[REG]标记捕获了全局上下文通过关注整个图像中的多个区域。在中间层（Layer-4）中，[Reg ]token趋向于参加与参考对象密切相关的判别区域（例如，在第一示例中的人后面的总线，指示场景在道路上）。在最后一层（第6层），TransVG关注参考对象，并为对象的形状生成更准确的注意力预测，从而使模型能够正确回归目标的坐标。

Conclusion

在本文中，我们提出了TransVG，一个基于Transformer的可视化接地框架。TransVG没有利用复杂的手动设计的融合模块，而是使用一个简单的Transformer编码器堆栈来执行多模式融合，并对视觉接地任务进行推理。大量实验表明，TransVG的多模态Transformer层有效地执行了逐步融合和推理，使TransVG能够在多个数据集上设置一系列新的最新记录。我们的TransVG作为一个新的框架，展示了未来研究的巨大潜力。

OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力 AI小怪兽 YOLOv12魔术师 YOLO transformer 深度学习人工智能 python
提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。如何使用：1）结合C3k2二次创新使用；2）结合A2C2f二次创新使用；亮点包括：1.提出了一种新的基于Transformer的盲点网络（TBSN）架构；2.引入了知识蒸馏策略来提高计算效率；3.在
Visual C++从入门到精通第三版 PDF 下载范武心Lucinda
VisualC++从入门到精通第三版PDF下载【下载地址】VisualC从入门到精通第三版PDF下载VisualC++从入门到精通第三版PDF下载项目地址:https://gitcode.com/open-source-toolkit/f4bb4资源介绍本仓库提供《VisualC++从入门到精通第三版》的PDF版本下载。这本书是一本非常适合初学者的入门书籍，内容涵盖了从C++基础知识到Visual
VsCode配置JDK\Tomcat\Maven Yang___Xing javascript VsCode Java java vscode tomcat
1、安装VsCode下载地址：VisualStudioCode-CodeEditing.Redefined安装提示安装完成即可2、安装JDK下载地址：JavaDownloads|Oracle选择版本：按照需求自行选择配置JAVA_HOMEMac的修改mac的打开终端，输入open~/.zshrc新增exportPATH="/yourpath/jdk-1.8.jdk/Contents/Home/bi
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
【人工智能】注意力机制深入理解问道飞鱼机器学习与人工智能人工智能注意力机制
文章目录**一、注意力机制的核心思想****二、传统序列模型的局限性****三、Transformer与自注意力机制****1.自注意力机制的数学公式****四、注意力机制的关键改进****1.稀疏注意力（SparseAttention）****2.相对位置编码（RelativePositionEncoding）****3.图注意力网络（GraphAttentionNetwork,GAN）****
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
python 数据可视化TVTK库安装与使用范哥来了信息可视化 python 开发语言
TVTK（Traits-basedVisualizationToolKit）是一个基于Python的可视化库，它为VTK（VisualizationToolkit）提供了一个更易于使用的接口。VTK本身是非常强大的可视化工具，但使用起来可能稍微复杂一些，而TVTK通过简化API来提高易用性。下面我将指导您如何安装TVTK以及一个简单的示例来展示其基本用法。安装TVTKTVTK可以通过pip轻松安装
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
C 中调用WIN32API函数就叫二号人物
http://www.pinvoke.net/磐实文章站(首页)首页>VisualBasic软件开发资料>API函数http://www.panshsoft.com/Sort_VB/API_fun/GetWindowRect用法http://blog.csdn.net/coolszy/article/details/5601455函数功能：该函数返回指定窗口的边框矩形的尺寸。该尺寸以相对于屏幕坐标
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&