tangjunjun-owen

Grounding DINO、TAG2TEXT、RAM、RAM++论文解读

提示：Grounding DINO、TAG2TEXT、RAM、RAM++论文解读

文章目录

前言
一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
- 1、摘要
- 2、背景
- 3、部分文献翻译
- 4、贡献
- 5、模型结构解读
- - a.模型整体结构
  - b.特征增强结构
  - c.解码结构
- 6、实验有趣说明
二、TAG2TEXT: GUIDING VISION-LANGUAGE MODEL VIA IMAGE TAGGING
- 1、摘要
- 2、背景
- 3、贡献
- 5、模型结构解读
三、Recognize Anything: A Strong Image Tagging Model
- 1、摘要
- 2、背景/引言
- 3、数据获得
- 4、贡献
- 5、模型结构解读
四、Inject Semantic Concepts into Image Tagging for Open-Set Recognition
- 1、摘要
- 2、背景/引言
- 3、CLIP-RAM-RAM++模型结构对比
- 4、贡献
- 5、模型结构解读
总结

前言

随着SAM模型分割一切大火之后，又有RAM模型识别一切，RAM模型由来可有三篇模型构成，TAG2TEXT为首篇将tag引入VL模型中，由tagging、generation、alignment分支构成，随后才是RAM模型，主要借助CLIP模型辅助与annotation处理trick，由tagging、generation分支构成，最后才是RAM++模型，该模型引入semantic concepts到图像tagging训练框架，RAM++模型能够利用图像-标签-文本三者之间的关系，整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也介绍将tag引入Grounding DINO模型，可实现目标定位。为此，本文将介绍这四篇文章。

一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

1、摘要

我们提出open-set检测任务方法叫做groindding dino，该方法基于transform的dino预训练模型相结合，可通过类别或相关表述来检测任意目标。该模型解决open-set任务最核心方法是引入语言language，为有效融合语言与视觉模态特征，我们设定三个阶段，并构建feature enhancer、a language-guided query selection与a cross-modality decoder for cross-modality fusion。我们方法与以往研究不一样，以往研究基本是用模型评估开放数据集，我们是通过tag评估开放集数据(我们用tag、以往直接评估)，我们方法在三个数据集表现sota

注：文章核心是tag提供语言信息结合到图像中，可使用tag检测定位grounding，即使未学习tag给到图像也有不错表现。

2、背景

Grounding DINO相对于GLIP有以下优势：
1、基于Transformer结构与语言模型接近，易于处理跨模态特征；
2、基于Transformer的检测器有利用大规模数据集的能力；
3、DINO可以端到端优化，无需精细设计模块，比如：NMS

先前研究open-set检测器是由闭集检测器引入语言信息实现，如图2所示,一个封闭集检测器通常有三个重要模块,一个主干网络用于特征提取,一个颈部用于特征增强,以及一个头部用于区域调整(或框预测)。可以通过学习语义意识的区域嵌入来将封闭集检测器推广到检测新对象,以便每个区域可以在语义意识的语义空间中分类为新类别。实现这一目标的关键是在颈部和/或头部输出处使用区域输出和语言特征之间的对比损失。为了帮助模型对齐跨模态信息,一些工作尝试在最终损失阶段之前融合特征。图2显示,特征融合可以在三个阶段进行:颈部(阶段A)、查询初始化(阶段B)和头部(阶段C)。例如,GLIP[26]在颈部模块(阶段A)中执行了早期融合,OV-DETR[56]将语言感知查询用作头部输入(阶段B)。

3、部分文献翻译

检测Transformer。基于定位的DINO建立在类似DETR的模型DINO [58]之上,DINO是一个端到端的基于Transformer的检测器。DETR首先在[2]中提出,然后在过去几年中从许多方面得到改进[4,5,12,17,33,50,64]。DAB-DETR [31]引入了锚框作为DETR查询,以进行更准确的框预测。DN-DETR [24]提出了查询去噪以稳定匹配。DINO [58]进一步开发了几种技术,在COCO物体检测基准测试中刷新了记录。然而,这些检测器主要侧重于封闭集检测,很难推广到新类别,因为预定义类别有限。

开放集物体检测。开放集物体检测使用现有的边界框注释进行训练,目的是检测任意类别的对象,语言泛化提供帮助。OV-DETR [57]使用由CLIP模型编码的图像和文本嵌入作为查询,以在DETR框架中解码类别指定的框。ViLD [13]从CLIP老师模型中蒸馏知识到类似R-CNN的检测器,以便学习到的区域嵌入包含语言的语义。GLIP [11]将物体检测形式化为定位问题,利用额外的定位数据帮助学习短语和区域层面上的语义对齐。它显示这样的表述甚至可以在完全监督的检测基准测试上取得更强的性能。DetCLIP [53]涉及大规模图像字幕数据集,并使用生成的伪标签来扩展知识数据库。生成的伪标签有效帮助扩展检测器的泛化能力。

然而,以前的工作只在部分阶段融合多模态信息,这可能会导致次优的语言泛化能力。例如,GLIP仅考虑在特征增强(阶段A)中进行融合,而OV-DETR仅在解码器输入(阶段B)处注入语言信息。此外,REC任务在评估中通常被忽视,这是开放集检测的一个重要场景。我们在表1中比较了我们的模型与其他开放集方法。

4、贡献

我们提出了Grounding DINO,它通过在多个阶段执行视觉语言模态融合来扩展封闭集检测器DINO,包括特征增强器、语言指导的查询选择模块和跨模态解码器。这种深度融合策略有效改进了开放集物体检测。
我们提出将开放集物体检测的评估扩展到REC数据集。它有助于评估模型对自由文本输入的性能。
在COCO、LVIS、ODinW和RefCOCO/+/g数据集上的实验表明,Grounding DINO在开放集物体检测任务上的有效性。

5、模型结构解读

模型整体框架为block1坐标，特征增强层为block2右下角，解码层为block3右上角，我将大概说下这三个block内容。

a.模型整体结构

block1内容：最下面可看出文本tag使用的文本特征提取的backbone，而图像使用图像特征提取的backbone，这2个是独立的；其次中将层feature enhancer为block2我待会再说；然后继续往上，可看到text feature基本结束，类似clip图像特征与最终图像特征做相似度匹配，而中间文本特征还往右图的图像特征做了或引导或KV特征；右边image features向上接受文本特征指引，随后在向上为解码模块block3，我将在下面介绍。

b.特征增强结构

block2内容：特征增强，即特征融合方式，文本与特征分别使用自注意力attention结构，随后图像提供Q在提供KV实现图像特征输出；文本提供KV在提供Q实现文本特征输出。(这里细节建议查看源码，但这里思路可借鉴)

c.解码结构

block3内容：实际是为图像特征解码做后面图像与文本特征匹配与定位任务，首先文本特征驶向图像特征完成文本指导，从图中看是做了cross-Modality，大胆猜测文本为Q、图像为KV的融合，随后再成Q分别再次将图像特征KV进行attention，获得结果再次作为Q对文本特征KV进行attention，最终为图像特征输出。

6、实验有趣说明

有趣的是,在相同设置下,DINO预训练的Grounding DINO优于标准Grounding DINO在LVIS上的性能。结果表明模型训练还有很大的改进空间,这将是我们未来要探索的方向。

二、TAG2TEXT: GUIDING VISION-LANGUAGE MODEL VIA IMAGE TAGGING

1、摘要

本文介绍了 Tag2Text，一种视觉语言预训练 (VLP) 框架，它将图像标记引入视觉语言模型以指导视觉语言特征的学习。与使用手动标记或使用有限检测器自动检测的对象标签的先前工作相比，我们的方法利用从其配对文本解析的标签来学习图像标记器，同时为视觉语言模型提供指导。鉴于此，Tag2Text 可以根据图像文本对使用大规模无注释图像标签，并提供超越对象的更多样化的标签类别。因此，Tag2Text 通过利用细粒度的文本信息实现了卓越的图像标签识别能力。此外，通过利用标记指导，Tag2Text 有效地增强了视觉语言模型在基于生成和基于对齐的任务上的性能。在广泛的下游基准测试中，Tag2Text 以相似的模型大小和数据规模取得了最先进或有竞争力的结果，证明了所提出的标记指南的有效性。

注：文章核心是将tag引入到VL模型且提供tag制作方法。

2、背景

①表示先前研究基于检测器范式将tag引入检测器中,该方法是有效的，②表示提取图像特征，将这些特征送入多模态图像文本交互校准。然这些方法限制了检测模型能力且耗时，近期研究者使用如何避免这样问题的方法，但结果表明其方法不能有效使用tag信息，③为图像tag指引，使用一个简单tag相关head头将图像tag引入②中detector-free VL模型中且凭借文本解析图像图像对应的tag去监督引入头，而我们完成监督tagging能力模型方法，且有效增强视觉语言任务性能。b图显示我们与基于目标检测范式的内容比较。

作者提出引入tag作为视觉-文本任务，有两个关键问题：数据和网络结构，其中数据也是本文提出的重点，如何构造图片的tag作为 label训练。实际image-text对数据很丰富，作者使用文本语义解析在text中获取图片对应tags。这样，图像tags能提供了图像和文本之间更好的桥梁，解析的标记类别更加多样化，比目标检测的object更丰富，有例如场景、属性、动作等。这就是数据发挥的重要作用。模型结构我将在下节介绍。

3、贡献

1、首先，证明了tag2text模型利用现成图像文本对解析的tag训练的模型在imge tagging能力，且zero-shot能力与全监督方法相当。

2、tag2text使用tag指导方式通过imamge tagging无缝连接整合现有vlm模型中，有效增强生成任务与校准任务的能力。

3、一系列下游任务实验等，证明了tagging能力，且说明了tagging 引导信息整合到VLM模型的有效性。

5、模型结构解读

模型结构包含3个分支：Tagging, Generation, Alignment，为不同的任务分支，多标签识别（就是tagging），Image Caption图像解说，Image-Text对齐。其中核心为tagging分支。

Tagging：用了Query2Label中的多label分类transformer decoder，同时为了避免解析的tags中有某些对应图片tag的缺失、正负样本的不平衡，使用了Asymmetirc Loss。

Generation：用了NLP中标准的transformer的编解码encoder-decoder框架，tags/text 映射为 embeding，然后 tags embeding（随机乱序，防止顺序影响学习）与 image embedding(features）一起送入 encoder，再经过decoder解码。输出与text embedding进行loss计算，相当于用 tag 指导 image 生成 text。

Image-Text Alignment：用了BLIP中 Encoder 结构，image embedding 与 text embeding送入encoder，用粗粒度的 Image-Text Contrastive(ITC) Loss 和细粒度的 Image-Text Matching(ITM) Loss 分别进行监督。

三、Recognize Anything: A Strong Image Tagging Model

1、摘要

我们提出了RAM模型，一个image tagging任务的基准模型。ram在计算视觉中迈出一大步，能带有很高精度与zero-shot能力，识别任意类别。ram在image tagging任务中提出了新的范式，利用大量图像-文本对训练，从而替换了人工标注工作。RAM分四个步骤，第一通过自动文本语义解析获得image-text标签；第二训练一个统一描述与标签的初始模型；第三数据引擎用来生成额外注释和清除不对的数据；第四模型通过预训练并使用精度高标注的数据做fitune训练。作者也在多个基准上测试模型，性能已超过CLIP与BLIP能力。

2、背景/引言

LLM因其大数据在NLP领域很火，这些模型展现更好zero-shot能力，且能处理超出训练领域外的任务与数据分布。说到cv领域，SAM模型因大数据训练，已被证明有很强的定位能力。

然而sam模型缺乏输出语义标签能力。多标签图像识别是众所周知的image tagging，目的是通过给定多标签图像识别语义标签。image tagging是一个重要而具有现实意义的视觉任务，多标签可包含目标标签、场景、属性和行为。遗憾的是，存在多标签分类、检测、分割和视觉语言方法在tagging中存在缺陷，为受限范围与精度(与本文ram可识别一切相比)，如图1描述，sam定位能力很强但无法识别，与ram相比，ram能给出识别能力且不受scope与accuracy限制(个人理解scope有5000多个类当然scope大了，accuracy因大大数据使其性能好了)。

自然引出网格核心问题，一个是数据制作一个是模型结构。

没有更强识别能力，可突破scope与accuracy限制

3、数据获得

Tag2Text利用 image-text-pair 的 text 进行解析，得到 tags，高频排序筛选前top-5k的标签，频率越高越重要。而RAM进一步扩大了数据量，筛选扩大到top-10k。原文具体做法如下：

标签系统：我们首先建立一个通用和统一的标签系统。我们结合了来自流行学术数据集（分类、检测和分割）以及商业标记产品（谷歌、微软、苹果）的类别。我们的标签系统是通过将所有公共标签与文本中的公共标签合并而获得的，从而覆盖了大多数公共标签，数量适中，为 6,449。剩余的开放词汇标签可以通过开放集识别来识别。

数据集：如何用标签系统自动标注大规模图像是另一个挑战[30]。从 CLIP [22] 和 ALIGN [11] 中汲取灵感，它们大规模利用公开可用的图像文本对来训练强大的视觉模型，我们采用类似的数据集进行图像标记。为了利用这些大规模图像文本数据进行标记，按照[9、10]，我们解析文本并通过自动文本语义解析获得图像标签。这个过程使我们能够根据图像文本对获得各种各样的无注释图像标签。

数据引擎：然而，来自网络的图像文本对本质上是嘈杂的，通常包含缺失或不正确的标签。为了提高注释的质量，我们设计了一个标记数据引擎。在解决丢失的标签时，我们利用现有模型生成额外的标签。对于不正确的标签，我们首先定位与图像中不同标签对应的特定区域。随后，我们采用区域聚类技术来识别和消除同一类中的异常值。此外，我们过滤掉在整个图像及其相应区域之间表现出相反预测的标签，确保更清晰和更准确的注释。

4、贡献

1.Strong and general(强大的图片tag能力)：实验说明在zero-shot上RAM的tags能力更强；
2.Reproducible and affordable(低成本复现与标注)：可需要更少数据work，最强版本需要3天8张A100训练
3.Flexible and versatile(灵活且满足各种应用场景)：可以单独使用作为标记系统,应用场景广，通过选择特殊类，ram能直接解决特殊类需要，能进一步和grounding dino结合实现语义分析(tag给grounding dino实现框定位等)

5、模型结构解读

RAM模型架构如图，大量图像对应tags数据通过自动文本语义解析模型从图像文本对中获得(现有数据很多)。在图像、标签、文本三块中，RAM实现图像caption与tagging任务。特别，RAM引入了一个现成的文本编码器，将标签编码器到语义丰富的文本标签查询中，从而在训练阶段实现对未知类别的泛化。

该模型屏蔽了tag2text的alignment分支，只有tagging与generation分支。

Tagging 分支用来多tags推理，完成识别任务；

Generation用来做 image caption任务；

Image Encoder 使用 Swin训练时，Tagging分支和Generation分支都用解析的Tags作为label；

测试时，Tagging会输出Tags，用于Generation的Caption任务生成最终的Text；

这里与tag2text最大不同在与CLIP的使用，作者把每个Tag进行prompt ensembling[22] 扩充，然后送入训好的CLIP Text Encoder得到其对应的文本标签查询（Textual label queries，其实就是 promopt + tag 的 embedding），作者认为这些 queries 比可学习的参数有更强的语义性和上下文信息。然后将这些Label Queris送进Tagging Decoder用image features进行Cross Attention。

引用该篇博客进一步解释：点击这里

1）训练过程没有上图右侧的CLIP Text Encoder。N个类别对应N个textual label queries——也就是可学习的参数，假设论文4585个类，每个类768维度表示，那么就是4585*768。

2）训练输入是三个元素：图片-Tag-文本构成，对应网络的一个输入（图像，文本输入不算，是网络自己的可学习参数）+ 2个输出（文本描述和多标签分类）。损失也就是常见的文本生成损失+多标签ASL损失。

3）image-Tag-interaction encoder 的文本输入是label 解析的Tag，不是模型的输出（推理时是模型的输出）

4）训练过程的某个节点（论文没有详细说）使用了CLIP image encoder 的输出进行蒸馏（distill）RAM 自己的image encoder。（这个我的理解是潜在对齐了CLIP Text encoder ，才更好的实现了后面推理阶段的open set 的识别。）

个人觉得比较重要是CLIP引用的蒸馏方式。

四、Inject Semantic Concepts into Image Tagging for Open-Set Recognition

1、摘要

在这篇论文中，我们引入了RAM++模型，一个在open-set很强能力的图像识别模型，该方法引入semantic concepts到图像tag中去训练的框架。对比先前方法要么是image tagging模块受有限语义制约，要么视觉语言模型浅交互在multi-tag识别中获得次优性能。相比与RAM++模型，该方法基于image-tags-text triplets整合图像文本校准与图像taging为统一细粒度交互框架。这种设计使RAM++能识别定义类，更重要是有识别open-set类的能力。RAM++利用LLMS生成多样可视的tag描述，首创使用LLM知识融合到图像 tagging训练中。在open-set识别中整合视觉藐视concepts进行推理。实验在多个图像识别基准中表明了RAM++图像识别方面取得了SOTA。

2、背景/引言

图像识别已经是研究者长期研究领域，使机器从被给图像中自动识别语义内容输出。随着自然语言过程[3,36]和图像定位[21,26]等领域基础模型的出现，构建图像识别基础模型具有重要意义,一个图像识别基准应该有更强的泛化能力，能在任意视觉概念数据中有效.

image recognition有2种研究方向：

image tagging是大家熟知的多标签识别，该方法主要依赖有标注的数据，而受数据限制，模型结果也都在特定数据与特定类表现很好；

vision-language是视觉语言模型，该方法基于大量图像文本对实现图像文本校准，其代表文章为CLIP，该文章有很强open-set能力，也能在其它领域泛化，如open-set object detection [15], image segmentation [15] and video tasks [32]

尽管CLIP在一图单标签的zero-shot效果显著，但是它的视觉语言交互是粗糙的使用点乘获得相关性，这样方式很困难处理更多现实细粒度image tagging tasks。近期RAM构建自动在图像文本对中获得tag方式，构建了综合的标签系统over 4500类，提取图像tag 标注。基于更细粒度image tagging模型框架，与CLIP对比，ram在识别tag中证明提升很大。

然而，ram缺陷是不能识别超过预定的类别，这就因固定类中限制其ram语义生成能力(只能固定提取)，结果也限制RAM模型隐藏更多能力，举个列子，系统标签只有恐龙标签，模型最多只知道子标签霸王龙或三角龙。更多丰富语义如摔倒人等受到挑战。为解决这样限制问题，我们引用语义概念到图像tagging中。具体的，我们将提出2个方法， Image-Text Alignment and LLM-Based Tag Description.

Image-Text Alignment :图像文本对齐，我们设计兼备CLIP与RAM优势，整合到image tagging结构中。这种设计能使模型在训练期间学习超过固定类限制的更广问题语义信息。这个对齐架构是基于细粒度视觉语言特征交互，结合online/offline设置，我们的模型能更好平衡效率与性能。

LLM-Based Tag Description:对于LLM-Based Tag Description,近期研究利用LLM增强识别模型。基于此，我们也将LLM知识整合到image tagging训练。特别地，我们采用LLM为每个tag类自动生成丰富的视觉描述，并与tag合并成embedding去与图像特征对齐。这样方法进一步引入丰富语义信息到模型中，在推理期间合并视觉概念到开放词汇任务。除此之外，我们对tag类别的多视觉描述设计了自动权重re-weighting机制，在没有额外消耗下进一步增强性能。

3、CLIP-RAM-RAM++模型结构对比

图2中，比较RAM++与CLIP和RAM。我们RAM++莫i选哪个整合图像、标签、文本三个内容到一个统一校准框架，引入LLM知识到图像tagging阶段，有效引入语义概念到open-set类别识别模型中。

4、贡献

1、我们整合image-tags-texts信息统一到aligment架构中，这种方式不仅在预定义tag类别更好work，还在open-set类别中也work。
2、据我们所知，我们研究是第一个将LLM模型知识整合到image tagging任务中，让模型在推理期间能整合open-set类别识别的视觉描述concept(利用llm获得概念就可在图像中识别未知类)。
3、作者又是一大堆benchmark实验，证明模型有效与sota。

5、模型结构解读

还是三个信息内容图像image、标签tags、文本text内容，RAM++采用共享alignment decode去校准图像文本（左边）与图像标签（右边），这样能显著增强open-set识别能力。除此之外RAM++整合LLM模型为每个类别生成视觉描述，将LLM的知识整合到模型中。而这篇文章最大特点是引入LLM模型，这样就有更多的语义描述信息，具体如下：

总结

第一篇是标签定位内容；
第二篇是tag引入模型；
第三篇是修改模型架构与数据制作方式；
第四篇是在第三篇基础上引入LLM模型与共享align decode结构；

【技术派专享】并行智算云：RTX 5090 免费算力深度评测 + 实战指南▎ 为什么开发者需要关注云端算力？山顶望月川人工智能云计算
在微调Llama3、训练扩散模型或跑Kaggle比赛时，本地显卡（比如RTX3090/4090）常面临显存不足、训练慢、散热差等问题。而购买多卡服务器成本极高（一台8×A100机器年成本超20万），对个人和小团队极不友好。并行智算云近期推出的“开发者扶持计划”，提供RTX5090免费算力（显存32GB，FP32算力60TFLOPS），实测比4090训练速度快1.8倍，且支持多卡并行。下面从技术优势
极客开发者如何打造下一个DeepSeek：从技术颠覆到生态构建的深度思考山顶望月川人工智能
DeepSeek的成功首先源于其技术范式的根本性突破...1.1架构创新的三大支柱DeepSeek的技术优势建立在三大创新基础之上...1.2极客开发者的技术启示对于有志打造下一个DeepSeek的极客开发者...二、生态战略：从封闭花园到开源雨林DeepSeek的第二个成功密码在于其开放生态战略...2.1开源生态的双重价值DeepSeek的开源策略创造了双重价值...2.2构建开发者生态的关键
浙江省经信厅数据算力与基础设施处处长庞为兴带队调研景联文科技，共探工业数据驱动智造新路径！景联文科技科技
7月2日上午，浙江省经信厅数据算力与基础设施处处长庞为兴、产业数字化处处长张君等一行领导带队莅临景联文科技调研指导工作，景联文科技CEO刘云涛参加调研并做汇报讲解，双方就数据服务公司业务，工业高质量数据集建设及政企合作方向展开深入探讨。景联文科技作为“懂模型、懂业务”的AI数据服务商，业务模式涵盖按需标注、预置数据集供应及平台部署服务，并积极汇聚公共数据资源，携手华为构建语料知识库，赋能数据标注产
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
【Linux】进程管理 nanguochenchuan Linux操作系统 linux chrome 运维
进程基础概念进程的定义与特征进程是操作系统资源分配的基本单位，具有以下核心特征：独立性：拥有独立的地址空间和系统资源动态性：具有创建、执行、终止的生命周期并发性：多个进程可以并发执行结构性：由代码段、数据段、堆栈等组成进程vs线程特性进程线程资源开销大（独立地址空间）小（共享地址空间）通信方式IPC机制共享内存创建/销毁成本高低安全性高（隔离性好）低（共享资源）进程生命周期创建：通过fork()系
手把手构建智能体：多模态AI Agent视-语-决融合实战指南
目录一、原创架构设计：三重融合智能体系统横向对比流程图：传统AIvs多模态Agent二、企业级可运行代码实现1.跨模态融合模块2.决策生成模块3.YAML配置文件（config.yaml）三、量化性能对比四、生产级部署方案安全部署架构安全审计要点部署步骤五、技术前瞻性分析下一代多模态智能体演进方向六、附录：完整技术图谱结语：构建真正智能的决策系统本文将深入探讨多模态AIAgent的核心架构设计与实
大模型在蛛网膜下腔出血预测与诊疗方案制定中的应用研究
目录一、引言1.1研究背景与意义1.2研究目的与创新点二、蛛网膜下腔出血概述2.1定义与分类2.2发病原因及危险因素2.3临床表现与诊断依据三、大模型技术原理与应用现状3.1大模型基本原理3.2在医疗领域的应用案例3.3应用于蛛网膜下腔出血预测的可行性分析四、大模型预测蛛网膜下腔出血的具体方案4.1术前风险预测4.1.1数据收集与预处理4.1.2模型构建与训练4.1.3预测指标与评估4.2术中情况
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
imxu6ull的启动 heng6868 imx6ull java spring boot 开发语言
启动方式有四种，用到的只有两种，一种是串行下载（通过下载线下载到RAm中去，再启动），第二种是内部BOOT模式，这种模式下，芯片会执行内部的bootROM代码，这段bootROM代码会进行硬件初始化(一部分外设)，然后从boot设备(就是存放代码的设备、比如SD/EMMC、NAND)中将代码拷贝出来复制到指定的RAM中，一般是DDR。boot模式下又分为几个启动设备：26个启动IO即可实现I.MX
【TensorRT】TensorRT及加速原理浩瀚之水_csdn tensorrt
一、TensorRT架构概览TensorRT是NVIDIA推出的高性能推理优化器，专为GPU加速设计。其核心架构分为三层：前端解析器支持ONNX/UFF/Caffe等格式的模型解析执行格式验证和初步结构优化优化引擎核心优化层（层融合、精度校准、内存优化等）生成优化后的计算图（OptimizedGraph）运行时环境管理GPU内存分配执行优化后的计算图二、核心加速原理（8大关键技术）1.层融合（La
2020-10-30 Victor Zhong AI 框架人工智能深度学习机器学习
极片缺陷检测模型验证报告：1：数据准备训练集：326张验证集：81张2：模型准备模型：yolov33：训练参数设置epochs:4603batch_size:8device:RTX2080Ticfg:yolov3-spp-jp4：验证结果5：检测结果部分检测结果图，全部结果图见文件夹result：6:结果分析a.训练数据中，某一类缺陷标注数量相对较少，影响检测该类的目标；可以通过数据增强的方法或增
271万+学术论文数据集 (2007-2025.4) .Android安卓科研室. 数据引用数据分析
文章目录数据下载地址数据指标说明一、数据介绍二、数据指标三、数据概览项目备注数据下载地址数据下载地址点击这里下载数据数据指标说明arXiv是一个向所有人开放的学术资源共享平台，创立于1991年，是开放获取运动的先驱。该平台由全球志愿者团队维护，目前已收录超过200万篇学术论文，涵盖物理学、计算机科学、数学等八大核心学科领域。通过近30年的发展，arXiv不仅为科研人员提供了免费的知识共享渠道，也成
大图处理优化：低分加载、Lazy Decode 与缩放算法加速实践观熵影像技术全景图谱：架构调优与实战算法影像 Camera
大图处理优化：低分加载、LazyDecode与缩放算法加速实践关键词：大图加载优化、LazyDecode、Region解码、缩放算法、Bitmap分块、滑动加载、内存控制、图像性能优化摘要：在相册、图片浏览器、拍摄预览和编辑器中，用户经常会处理分辨率高达上千万像素的照片（如48MP、64MP、RAW文件等），这类“大图”在加载、缩放、平移过程中容易造成内存抖动、页面卡顿甚至OOM崩溃。本篇文章将围
cesium-native+OpenGL开发笔记—渲染GIS球
坐标系转换OpenGL坐标系右手坐标系，X轴水平向右，Y轴竖直向上，Z轴指向屏幕外面。Y（绿色，朝上）^|||*---->X（红色，向右）//Z（蓝色，向前）（指向屏幕外）3DTiles坐标系右手坐标系，Z轴朝上Z（蓝色，朝上）^||/Y（绿色，朝屏幕内）|/*---->X（红色，朝右）glTF模型坐标系右手坐标系，Y轴朝上3DTiles和OpenGL坐标系上方向存在差异，实际绘制是在OpenGL
\SpringBootDemo-1.0-SNAPSHOT.jar中没有主清单属性郭宝 JavaEE #Spring Boot jar maven java
背景：java-jar.\SpringBootDemo-1.0-SNAPSHOT.jar--spring.profiles.active=dev在运行打包以后的maven项目时，出现了如下报错信息解决办法：1、需要在项目根目录下的pom.xml文件中添加SpringBoot构建的插件org.springframework.bootspring-boot-maven-pluginrepackage<
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
UI自动化-经典面试题分析 Oooon_the_way 自动化 ui
一、元素定位与操作1.定位不到元素的常见原因及解决①页面加载问题：添加显式等待（优先）或隐式等待②Frame/Iframe嵌套：切换至目标Frame再定位（driver.switch_to.frame()）③多窗口或标签页：切换句柄（driver.switch_to.window(handle)）④动态属性：使用XPath相对路径（如//div[contains(@id,'prefix_')]）或
MySQL CDC与Kafka整合指南：构建实时数据管道的完整方案亲爱的非洲野猪 mysql kafka 数据库
一、引言：现代数据架构的实时化需求在数字化转型浪潮中，实时数据已成为企业的核心资产。传统批处理ETL（每天T+1）已无法满足以下场景需求：实时风险监控（金融交易）即时个性化推荐（电商）物联网设备状态同步微服务间数据一致性本文将深入探讨如何通过MySQLCDC与Kafka的整合，构建高效可靠的实时数据管道。二、技术选型：三大CDC工具深度对比功能矩阵比较特性DebeziumCanalMaxWell多
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
聚焦的伟力：注意力机制与Transformer的创世纪田园Coder 人工智能科普人工智能科普
当LSTM和GRU凭借其精密的门控系统，成功驯服了时间的长河，让神经网络能够跨越数十甚至数百步记住关键信息，并在机器翻译、文本生成等领域大放异彩时，一个看似微小却影响深远的瓶颈逐渐浮出水面，尤其是在序列到序列（Seq2Seq）框架中。在标准的Seq2Seq模型（如用于神经机器翻译）里，编码器（通常是一个RNN如LSTM）需要将整个输入序列（如一个英语句子）的信息压缩成一个固定长度的上下文向量（Co
GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进胡晗研
GPT-SoVITS项目重大更新全解析：从语音合成到多语言支持的技术演进GPT-SoVITS项目地址:https://gitcode.com/gh_mirrors/gp/GPT-SoVITS项目概述GPT-SoVITS是一个先进的语音合成与转换系统，集成了GPT模型与SoVITS技术，能够实现高质量的语音合成、语音转换以及多语言混合处理。该系统不断迭代更新，在语音质量、训练效率和多语言支持等方面持
【性能优化与架构调优（一）】Java 应用性能优化
Java应用性能优化：从JVM到并发编程的全方位解析一、JVM调优：打造高性能运行环境1.1JVM内存模型与核心参数配置JVM内存结构主要包含堆(Heap)、栈(Stack)、方法区(MethodArea)、本地方法栈(NativeMethodStack)和程序计数器(PCRegister)。其中，堆是GC的主要区域，可通过以下参数进行调优：#JVM启动参数示例（以生产环境常用配置为例）java-
RICE模型或KANO模型在具体UI评审时的运用经验 Alex艾力的IT数字空间设计规范前端框架原型模式产品经理需求分析 ux 制造
模型是抽象的产物，结合场景才好说明（数据为非精确实际数据，仅供参考，勿照搬）。案例一：RICE模型解决「支付流程优化」vs「首页动效升级」优先级争议背景：APP电商模块在迭代中面临两个需求冲突——支付团队主张优化支付失败提示（减少用户流失），设计团队提议增加首页3D商品动效（提升视觉吸引力）。双方争执不下。应用过程：RICE模型量化评估（参考）：支付优化：Reach（覆盖人数）：支付流程涉及100
【AI大模型学习路线】第三阶段之RAG与LangChain——第十五章（LangChain与Chain组件）LLMChain,Sequential Chain详解？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十五章（LangChain与Chain组件）LLMChain,SequentialChain详解？【AI大模型学习路线】第三阶段之RAG与LangChain——第十五章（LangChain与Chain组件）LLMChain,SequentialChain详解？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十五
区块链重构信任链：跨境电商代购如何用代码破解“假货-失联-物流造假”困局？ Joe13265449558 跨境电商独立站无货源自建站代购系统
区块链技术如何解决跨境电商代购的信任与溯源难题？在跨境电商代购市场年增速达28%的背景下，消费者对商品真伪、物流透明度和支付安全性的质疑却与日俱增。2024年，中国消费者协会数据显示，跨境电商代购投诉量同比激增187%，其中"货不对板""物流造假""付款后失联"成为三大核心痛点。区块链技术凭借其去中心化、不可篡改和智能合约等特性，正在重构跨境电商代购的信任体系，为行业提供从商品生产到交付的全链路解
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

Grounding DINO、TAG2TEXT、RAM、RAM++论文解读

文章目录

前言

一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

1、摘要

2、背景

3、部分文献翻译

4、贡献

5、模型结构解读

a.模型整体结构

b.特征增强结构

c.解码结构

6、实验有趣说明

二、TAG2TEXT: GUIDING VISION-LANGUAGE MODEL VIA IMAGE TAGGING

1、摘要

2、背景

3、贡献

5、模型结构解读

三、Recognize Anything: A Strong Image Tagging Model

1、摘要

2、背景/引言

3、数据获得

4、贡献

5、模型结构解读

四、Inject Semantic Concepts into Image Tagging for Open-Set Recognition

1、摘要

2、背景/引言

3、CLIP-RAM-RAM++模型结构对比

4、贡献

5、模型结构解读

总结

你可能感兴趣的:(语言模型-多模态大模型,grounding,dino,tag2text,RAM,RAM++,大模型)