Vincy_King

【Image Text Matching】Learning Semantic Concepts and Order for Image and Sentence Matching

Learning Semantic Concepts and Order for Image and Sentence Matching

CVPR 2018, Center for Research on Intelligent Perception and Computing (CRIPAC), National Laboratory of Pattern Recognition (NLPR)

Abstract

图像和句子匹配近年来取得了很大的进展，但由于视觉语义差异较大，仍然具有挑战性。这主要是由于像素级图像的表示通常缺乏其匹配句子中的高级语义信息。本文提出了一种语义增强的图像和句子匹配模型，该模型可以通过学习语义概念，然后按照正确的语义顺序组织它们来改进图像的表示。给定一个图像，本文首先使用多区域多标签CNN multi-regional multi-label CNN来预测其语义概念semantic concept，包括对象、属性、动作等。然后，考虑到不同的语义概念顺序导致不同的语义意义，使用上下文门控句子生成方案context-gated sentence generation scheme进行语义顺序学习。它同时使用包含概念关系的图像全局上下文作为参考，并使用匹配句子中的ground truth语义顺序作为监督。在获得改进的图像表示后，本文使用传统的LSTM学习句子表示，然后联合进行图像和句子匹配以及句子生成进行模型学习。

1. Introduction

图像和句子匹配的任务是指测量图像和句子之间的视觉-语义相似性。它已广泛应用于图像-句子跨模态检索的应用。虽然在这一领域已经取得了很大的进展，但由于存在巨大的视觉语义差异，准确地测量图像和句子之间的相似性仍然是很重要的。以图1中的一个图像及其匹配的句子为例，图像中出现的主要对象、属性和动作分别为：{cheetah, gazelle,grass}, {quick, young, green} 和 {chasing, running}。这些高级语义概念是需要与匹配的句子进行比较的基本内容，但它们不能轻易地从像素级图像中表示出来。大多数现有的方法通过提取一个全局的CNN 特征向量来联合表示所有的概念，其中这些概念相互纠缠。因此，一些主要的前景概念往往占主导地位，而其他次要的背景概念可能会被忽略，这对于细粒度的图像和句子匹配不是最优的。为了全面预测图像的所有语义概念，一种可能的方法是自适应地探索属性学习框架，但这种方法在图像和句子匹配方面还没有得到很好的研究。

除了语义概念外，如何正确地组织它们，即语义顺序，在视觉-语义差异中起着个更重要的作用。如图1所示，根据上述语义概念，如果我们错误地将它们的语义顺序设置为：a quick gazelle is chasing a young cheetah on grass，那么它将与图像内容和匹配的句子有完全不同的含义。但是直接从语义概念中学习正确的语义顺序是非常困难的，因为存在各种语义上有意义的错误的语义顺序。

两种解决方法：第一，我们可以诉诸于图像的全局上下文，因为它已经从语义概念之间出现的空间关系中表明了正确的语义顺序，例如，猎豹在瞪羚的左边。但目前尚不清楚如何将它们与语义概念适当地结合起来，并使它们能直接与句子中的语义顺序相比较。第二，我们可以从图像中生成一个描述性的句子作为它的表示。然而，基于图像的句子生成image caption也是一个非常具有挑战性的问题。即使是那些最SOTA的方法，也不能总是生成非常真实的句子来捕捉所有的图像细节。图像细节对于匹配任务至关重要，因为全局图像-句子相似性是由图像细节的局部相似性聚合起来的。因此，这些方法在图像和句子匹配方面不能达到非常高的性能。

为了弥补图像和句子之间的视觉-语义差异，本文提出了一个语义增强的图像和句子匹配模型，该模型通过学习语义概念，然后以正确的语义顺序组织它们来改进图像的表示。为了学习语义概念，作者利用了一个multi-regional multi-labelCNN，它可以同时预测对象、属性、动作等方面的多个概念。该CNN的输入是从图像中选择性提取的多个区域，它可以全面捕获所有的概念，无论它们是否是主要的前景概念。为了以正确的语义顺序组织提取的语义概念，作者首先以门控的方式将它们与图像的全局上下文进行融合。上下文包括所有语义概念的空间关系，可作为促进语义顺序学习的参考。然后利用匹配句子中的基真值语义顺序作为监督，通过强制融合的图像表示来生成匹配的句子。

在用语义概念和顺序增强图像表示后，作者使用传统的LSTM 学习句子表示。然后将图像和句子的表示与一个结构化目标进行匹配，并与另一个句子生成目标相结合，进行联合模型学习。为了证明该模型的有效性，我们在两个公开的数据集上进行了多次图像注释和检索实验，并取得了SOTA结果。

2. Related Work

2.1 Visual-semantic Embedding Based Methods

Yan and Mikolajczyk 以深度典型相关分析为目标，将图像和句子关联起来，其中匹配的图像-句子对具有较高的相关性。基于类似的框架， Klein 等使用Fisher Vectors (FV) 学习更多的歧视表示句子，Lev等使用RNN聚合FV并进一步提高性能，和Plummer等探索区域短语对应的使用。相比之下，本文提出的模型考虑通过学习语义概念和顺序来弥补视觉-语义差异。

2.2 Image Captioning Based Methods

Chen和Zitnick 使用多模态自动编码器进行双向映射，并使用跨模态似然和重构误差来度量相似度。Mao等人提出了一种多模态从图像中生成句子的RNN模型，其中以生成句子的复杂性作为相似性。Donahue等人设计了一个用于image caption的长期循环卷积网络，它也可以扩展到图像和句子匹配。Vinyals等人开发了一种神经图像描述生成器，并显示了其对图像和句子匹配的有效性。这些模型最初是为了预测语法完整的句子而设计的，所以它们在测量图像-句子相似度方面的表现不是很好。与之不同的是，本文工作集中在相似度测量上，特别适合于图像和句子匹配的任务。

3. Semantic-enhanced Image and Sentence Matching

本节将详细提出语义增强图像和句子匹配模型： 1)基于传统LSTM的句子表示学习，2)语义概念提取与多区域多标签CNN，3) 语义顺序学习上下文门控句子生成方案，4)模型学习联合图像和句子匹配和句子生成。

3.1 Sentence Representation Learning

语义相关的词的语义顺序本质上是由句子的顺序性质所表现出来的，为了学习能够捕获这些与语义相关的单词并对其语义顺序建模的句子表示，本文使用传统的LSTM并得到最后一个时间步长的隐藏状态 $s∈R^H$ 。

3.2 Image Semantic Concept Extraction

本文手动构建了一个训练数据集，其只保留了名词、形容词、动词和数字作为语义概念，并消除了句子中所有与语义无关的单词，以及忽略使用频率很低的单词。此外，作者统一了动词的不同时态，名词的单复数形式，减少词汇量，得到了一个包含K个语义概念的词汇表。基于此词汇表，可以通过从句子中选择多个单词作为基本真理语义概念来生成训练数据集。然后，对语义概念的预测等价于一个多标签分类问题，作者简单地使用在ImageNet数据集上预训练的VGGNet作为多标签CNN。为了适应多标签分类化，作者将输出层修改为有K个输出，每个输出对应于一个语义概念的预测置信值。给定一幅图像，其对ground truth语义概念的one-hot表示为 $y_i∈\{0,1\}^K$ ，而多标签CNN预测的得分向量为 $\hat y_i∈\{0,1\}^K$ ，则可以通过优化以下目标来学习模型：

$L_{cnn}=\sum_{c=1}^K \log(1+e^{(-y_{i,c}\hat y_{i,c})})$

在测试过程中，考虑到语义概念通常出现在图像的局部区域中，且大小不同，作者以区域的方式进行概念预测。给定一个测试图像，首先选择性地提取r个图像区域，然后将它们调整为正方形形状。通过将这些区域分别输入学习到的多标签CNN模型中，可以得到一组预测的置信度得分向量confidence score vectors $p$ 。作者对这些分数向量执行元素级最大池化，以获得单个向量，其中包括对所有语义概念的期望置信度分数。

3.3 Image Semantic Order Learning

在获得语义概念后，如何按照正确的语义顺序合理地组织它们，对图像和句子匹配起着重要的作用。本文提出了一种上下文门控句子生成方案，以图像全局上下文作为参考，以上下文生成作为监督。

3.3.1 Global Context as Reference

因此，从分离的语义概念中直接学习语义顺序并不容易，因为语义顺序不仅涉及概念之间的超文本关系，还涉及高级语义层次中短语之间的文本隐含关系。为了解决这个问题，本文使用图像全局上下文作为语义顺序学习的辅助参考。如图3所示，全局上下文不仅可以在一个粗糙的层次上描述所有的语义概念，而且还可以表示它们彼此之间的空间关系，例如，两只长颈鹿站在左边，而篮子站在左上角。在组织分离的语义概念时，模型可以引用全局上下文来找出它们之间的关系，然后将它们结合起来，以促进语义顺序的预测。为了高效的实现，本文使用预先训练过的VGGNet来处理整个图像内容，然后提取最后一个全连接层中的向量作为所需的全局上下文。

要对这样的过程进行建模，一个简单的方法是将全局上下文与语义概念求和在一起。但考虑到不同图像的内容可能是不同的，因此语义概念和上下文的相对重要性在大多数情况下是不相等的。对于那些内容复杂的图像，它们的全局上下文可能有点模糊，因此语义概念更具鉴别性。为了解决这个问题，作者设计了一个门控融合单元，它可以有选择性地平衡语义概念和上下文的相对重要性。该单元充当一个门，控制语义概念和上下文的信息对它们的融合表示的贡献。在获得归一化上下文向量 $x∈R^I$ 和概念得分向量 $p∈R^K$ 后，通过门控融合单元的融合可以表述为：

$\hat p=||W_lp||_2,\hat x=||W_gx||_2,t=\sigma(U_lp+U_gx)$

$v=t\odot \hat p +(1-t)\odot \hat x$

其中， $v∈R^H$ 为语义概念和全局上下文的融合表示。函数 $σ$ 将门向量 $t∈R^H$ 中的每个元素重新缩放到[0,1]，从而使 $v 成为 p 和 x 的$ 元素加权和。

3.3.2 Sentence Generation as Supervision

为了学习基于融合表示的语义顺序，一种直接的方法是直接从中生成一个句子，类似于image caption，虽然该方法可以生成有语义意义的句子，但它们生成的句子捕捉图像细节的准确性不是很高。即使生成的句子是高度语义的，并且进一步影响相似度的测量，句子中的一点错误也会被放大，而且相似度是在细粒度的水平上计算的。因此，即使是最先进的image caption模型也不能很好地完成图像和句子匹配任务。

事实上，图像和句子匹配任务没有必要生成一个语法完整的句子。我们也可以将融合的上下文和概念视为图像表示，并在句子生成过程中使用匹配句子中的ground truth语义顺序对其进行监督。作者将图像表示输入生成的LSTM的初始隐藏状态，并要求其能够生成匹配的句子。在cross-word和cross-phrase生成过程中，图像表示可以学习单词之间的文本关系和短语之间的文本隐含关系作为语义顺序。

在句子生成过程中，由于所有的单词都是以链的方式预测的，当前预测单词的概率 $P$ 依赖于其所有之前的单词，以及初始时间步的输入语义概念 $p$ 和上下文 $x$ 。

3.4 Joint Matching and Generation

在模型学习过程中，为了联合执行图像和句子匹配和句子生成，我们需要最小化以下组合目标：

$L=L_{mat}+\lambda × L_{gen}$

其中， $λ$ 是一个用于平衡的调优参数。 $L_{mat}$ 是一个结构化的目标，它鼓励匹配的图像和句子的余弦相似度得分大于不匹配的图像和句子：

$\sum_{ik}=\max\{0,m-s_{ii}+s_{ik}+\max \{0,m-s_{ii}+s_{ki}\}\}$

其中 $m$ 是一个边缘参数， $s_{ii}$ 是匹配的第 $i$ 个图像和第 $i$ 个句子的得分， $s_{ik}$ 是不匹配的第 $i$ 个图像和第 $k$ 个句子的得分，与 $s_{ki}$ 反之亦然。在我们的实验中，我们根据经验将每对配对的错配对总数设置为128对。 $L_{gen}$ 是给定语义概念 $p$ 和上下文 $x$ 的匹配句子的负条件对数似然值：

$-\sum_t \log P(w_t|w_{t-1},w_{t-2},...,w_0,x,p)$

其中，作者在实验中使用预测的语义概念，而不是ground truth概念。

除多区域多标签CNN外，本文模型的所有模块都可以构成一个完整的深度网络，可以进行从原始图像和句子到相似度评分的端到端联合训练。本文不需要在测试期间生成这个句子，只需要从x和p中计算出图像表示的v，然后将其与句子表示的s进行比较，从而得到它们的余弦相似度得分即可。

4. Experimental Results

4.1 Datasets and Protocols

Flickr30k 由从Flickr网站收集的31783张图片组成。每幅图片都附有5个人工注释的句子。本文使用训练、验证和测试分割，它分别包含28000、1000和1000张图像。
MSCOCO 由82783张训练图像和40504张验证图像组成，每张图像都与5个句子相关联。使用训练、验证和测试分割，分别有82783张、4000张和1000张（或5000张）图像。当使用1000张图像进行测试时，进行5倍交叉验证并报告平均结果。

4.2 Implementation Details

图像标注和检索常用的评价标准是“R@1”、“R@5”和“R@10”，即前1、5和10个结果的召回率。本文还通过平均所有6个召回率来计算一个额外的标准“mR”，以评估图像注释和检索的整体性能。

作者设计了不同的消融模型，如表1。

“1-crop”和“10-crop”分别是指在提取全局上下文时从图像中裁剪1或10个区域。
“concept”和“context”分别表示使用语义概念和全局上下文。
“sum”和“gate”分别是通过特征求和和门控融合单元将语义概念和上下文结合起来的两种不同的方式。
“sentence”，“generation”和“sampling”是三种不同的方法来学习语义顺序，“sentence”使用先进的image caption方法从图像生成句子，然后认为句子作为图像表示，“generation”使用句子生成监督在3.3.2节所述，和“sampling”另外使用预定抽样。
“share”和“non-share”表示用于句子表示学习和句子生成的两个单词嵌入矩阵的参数是否共享。

4.3 Evaluation of Ablation Models

裁剪10个图像区域比仅裁剪1个区域可以实现更健壮的全局上下文特征。
直接使用预先生成的句子作为图像表示（如“ctx+sen”）并不能提高性能，因为生成的句子可能不能准确地包含图像细节。
利用句子生成来监督语义顺序学习（如“ctx+gen”）是非常有效的。但是额外地执行预定的抽样（如“ctx+gen(S)”）不能进一步提高性能。这可能是因为基本真语义顺序在采样过程中退化，因此模型不能很好地学习它。
使用一个共享的单词嵌入矩阵（如“ctx+gen(E)”）并不能提高性能，这可能是由于为两个任务学习一个单一化的矩阵是困难的。
使用语义概念（如“cnp”）已经可以获得良好的性能，特别是当训练数据在MSCOCO数据集上足够时。
使用所提出的门控融合单元（如“cnp+ctx”）表现更好，由于有效的重要性平衡方案。
采用“cnp+ctx+gen”，通过门控融合单元将10个裁剪提取的上下文与语义概念结合起来，利用句子生成进行语义顺序学习。如果不使用语义概念（如“ctx+gen”）或上下文（如“cnp+gen”），性能就会严重下降。

在接下来的实验中，将“cnp+ctx+gen”作为默认模型。对平衡参数λ调参，将其从0改变到100。相应的结果如表3所示，当λ=1时，模型可以达到其最好的性能。说明生成目标与匹配目标起着同样重要的作用。

4.4 Comparison with State-of-the-art Methods

在MSCOCO数据集上使用VGGNet或ResNet，本文模型在所有7个评估标准上都大大优于目前最先进的模型。它证明了学习图像表示的语义概念和顺序是非常有效的。
在Flickr30k数据集上使用VGGNet时，模型在R@1评价准则上的性能低于2WayNet，但在其余评价准则上的整体性能更好。
当在Flickr30k数据集上使用ResNet时，我们的模型能够获得最好的结果。
本模型在MSCOCO数据集上获得了比Flickr30k更大的改进。这是因为MSCOCO数据集有更多的训练数据，因此我们的模型可以更好地拟合来预测更准确的图像-句子相似性。

另外使用所有5000张图像及其句子进行测试，并在表5中给出了比较结果。所有方法的总体结果都低于表4。这可能是因为目标集要大得多，因此对于给定的查询存在更多的干扰物。但在所有模型中，本文模型仍然取得了最好的性能，再次证明了其有效性。其中，本文模型使用VGGNet比ResNet有更大的改进，这源于“Ours（Res）”只使用ResNet来提取全局上下文，而不使用语义概念。

4.5 Analysis of Image Annotation Results

为了定性地验证模型的有效性，作者选择了几个具有复杂内容的代表性图像，通过3个消融模型“ctx”、“cnp+ctx”和“cnp + ctx + gen”检索相关句子。图4中显示了3个模型检索到的前3个相关句子，在图5中预测了置信度得分的前10个语义概念。

图5可以看出，多区域多标签CNN可以准确地预测出描述详细图像内容的高置信度得分的语义概念。注意到skate的分配错误，这可能是由于图像内容是复杂的。
如图4所示，如果没有预测的语义概念，“ctx”就不能准确地从复杂的图像内容中捕获语义概念。
“cnp+ctx”结合预测的语义概念后，句子与图像的含义非常相似，能够将基本真实的句子排在前3位。但排名前1的句子仍然没有涉及部分图像细节
通过进一步学习句子生成的语义顺序，“cnp+ctx+gen”能够将所有相关概念关联起来，检索匹配的句子与所有图像细节。

5. Conclusions and Future Work

“zoom:50%;” />

图5可以看出，多区域多标签CNN可以准确地预测出描述详细图像内容的高置信度得分的语义概念。注意到skate的分配错误，这可能是由于图像内容是复杂的。
如图4所示，如果没有预测的语义概念，“ctx”就不能准确地从复杂的图像内容中捕获语义概念。
“cnp+ctx”结合预测的语义概念后，句子与图像的含义非常相似，能够将基本真实的句子排在前3位。但排名前1的句子仍然没有涉及部分图像细节
通过进一步学习句子生成的语义顺序，“cnp+ctx+gen”能够将所有相关概念关联起来，检索匹配的句子与所有图像细节。

5. Conclusions and Future Work

本文提出了一个语义增强的图像和句子匹配模型。主要贡献是通过学习语义概念，然后按照正确的语义顺序组织它们来改进图像表示。这是通过在多区域多标签CNN、门控融合单元、联合匹配和生成学习等方面的一系列模型组件来实现的。本文系统地研究了这些成分对图像和句子匹配的影响，并通过实现显著的性能改进，证明了模型的有效性。在未来，作者将在多区域多标签CNN中使用ResNet替换所使用的VGGNet，以更准确地预测语义概念。该模型可以进行图像和句子匹配以及句子生成，因此作者希望将其扩展用于image caption任务。

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
图片转字符串存储在SQLite中你就是乌鸦嘴 qt6.3 笔记 qt
将图片转化为字符串放入Sqlite数据库，以BLOB类型存储。一、主要函数1、图片转字符串使用内存读写器，指定格式存入字节数组，字节数组转Base64以Latin1编码输出到文本框。voidMainWindow::on_actPtB_triggered(){ui->plainTextEdit->clear();if(ui->labPhoto->pixmap().isNull()){labtext-
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
20.XLD轮廓 Echo`` Halcon系统化学习计算机视觉人工智能算法
目录1.xld概念2.画轮廓3.区域转轮廓4.边缘提取算子5.xld特征提取6.提取任意线条7.提取最长的线条8.xld分割10.xld合并11.xld拟合12.xld几何变换13.xld变换14.xld集合运算15.区域和轮廓精度16.轮廓的保存读取17.halcon操作CAD文件18.轮廓测量算子19.同心度计算1.xld概念*图像处理*1.处理对象HObject*1.图像-image*2.区
PyQt5—QTextEdit 学习笔记寄思～ Python——PyQt5笔记 qt 学习笔记 python
第二章控件学习一、QTextEdit基础认知QTextEdit是PyQt/PySide框架中用于处理富文本内容的强大控件，它不仅支持纯文本编辑，还能处理HTML、图片等复杂内容，是开发文本编辑器、日志查看器等应用的核心组件。二、最简单的QTextEdit实现下面是一个创建QTextEdit并显示的基础案例，适合零基础入门：importsysfromPyQt5.QtWidgetsimportQApp
Python——pyautogui打地鼠游戏自动化脚本（基于图片定位）
以4399小游戏为例：4399游戏网importpyautoguiimportkeyboardimporttimeimportrandomimportloggingfromPILimportImageGrabimportos#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname)s-%(message)
Docker 容器全生命周期操作指南
以下是Docker容器全生命周期操作指南，按步骤清晰划分，涵盖从镜像加载到容器销毁的完整流程：一、镜像加载与验证1.从.tar文件加载镜像sudodockerload-iubuntu18.04-boost1.88-cmake3.27-git_1.0.tar2.查看已加载的镜像sudodockerimages输出示例：REPOSITORYTAGIMAGEIDCREATEDSIZEubuntu18.0
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
【HarmonyOS】鸿蒙应用开发Text控件常见错误
【HarmonyOS】鸿蒙应用开发Text控件常见错误一、前言Text文本控件，是我们应用开发中最为基本和常见使用的控件之一。很多人觉得对于控件的使用已经非常熟悉，一个文本控件，能有什么使用错误呢？其实不然，今天本文，就对于Text常用会导致问题的点进行阐述。二、Text设置字体大小是否可用于百分号？对于初学者最常见的问题之一，就是使用Text的fontSize属性设置字体大小时，传入百分比字符串
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
[netty5: ChannelPipeline & ChannelHandlerContext ]-源码分析 idolyXyz netty5-源码阅读 netty
在阅读该篇文章内容前，推荐先阅读：[netty5:Channel&ServerChannel]-创建流程[netty5:ChannelHandlerMask]-源码分析[netty5:ChannelHandler&ChannelHandlerAdapter]-源码解析从Channel源码来看，Channel将出站操作全部委托给了ChannelPipeline。这么做的原因是为了实现职责分离和灵活的
CALayer的异步处理
在iOS开发中，实现**CALayer**的异步处理是优化性能的关键技术，尤其对于复杂绘制或需要高性能渲染的场景。以下是完整实现方案：一、异步绘制核心架构设置异步绘制标志触发display创建异步任务执行绘制生成CGImage设置contents主线程CALayer实现displayLayer:方法全局队列CoreGraphics绘制主线程回调二、完整实现代码1.自定义异步图层//AsyncLay
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
【PyTorch】教程：torch.nn.Mish
torch.nn.Mish原型CLASStorch.nn.Mish(inplace=False)定义Mish(x)=x∗Tanh(Softplus(x))\text{Mish}(x)=x∗\text{Tanh}(\text{Softplus}(x))Mish(x)=x∗Tanh(Softplus(x))图代码importtorchimporttorch.nnasnnm=nn.Mish()input
【PyTorch】教程：torch.nn.GELU 老周有AI~算法定制 PyTorch pytorch 深度学习 python
torch.nn.GELU原型CLASStorch.nn.GELU(approximate='none')参数approximate(str,optional)–gelu近似算法用none或者tanh，默认为none;定义高斯误差线性单元函数GELU(x)=x∗ϕ(x)\text{GELU}(x)=x*\phi(x)GELU(x)=x∗ϕ(x)其中ϕ(x)\phi(x)ϕ(x)为高斯分布的累积分布
oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
原生JS简易进度条一万句的秘密 javascript 前端开发语言
#wrapper{width:200px;height:100px;border:1pxsolid#000000;margin:0auto;}#progressbar{width:180px;height:20px;margin:0auto;margin-top:40px;border:1pxsolid#000000;}/*设置进度条动画*/#fill{animation:move2s;text-
串---暴力字符串匹配算法实现 KYGALYX 数据结构算法数据结构
暴力字符串匹配算法详解暴力字符串匹配算法（BruteForceStringMatchingAlgorithm）是一种简单的字符串匹配算法，它通过逐个比较主串中的字符与模式串中的字符来进行匹配。虽然这种方法简单直观，但在最坏情况下可能需要多次比较，导致效率较低。本文档将详细介绍暴力字符串匹配算法的原理、步骤以及如何在C语言中实现。1.暴力字符串匹配算法原理1.1主串与模式串主串：待搜索的字符串。模式
TextTipsPlus 多行省略 + Tooltip 提示组件 JaysonJin 实用组件库 vue.js javascript 前端
TextTipsPlus多行省略+Tooltip提示组件✅功能亮点功能说明多行省略通过line-clamp控制显示行数，默认单行动态宽度支持传入width（数值或百分比/字符串）Tooltip超出显示自动判断是否超出容器，超出后显示完整tooltip插槽支持支持插入复杂结构（文本、图标、HTML等）i18n支持插槽和text均可支持$t()组件源码（TextTipsPlus.vue）{{$t(te
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
Kafka Controller 元数据解析与故障恢复实战指南磐基Stack专业服务团队 Kafka kafka linq 分布式
#作者：张桐瑞文章目录1生产案例：Controller选举在故障恢复中的关键作用1.1问题背景1.2核心操作原理：2Controller元数据全景：从ZooKeeper到内存的数据镜像2.1元数据核心载体：ControllerContext类2.2核心元数据深度解析1生产案例：Controller选举在故障恢复中的关键作用1.1问题背景某Kafka集群部分核心主题分区一直处于“不可用”状态，通过k
Feign 解码异常处理：解决 No Suitable HttpMessageConverter 问题码傻啦弟软件开发 java 开发语言 Feign spring boot
一、问题场景与错误解析在使用SpringCloudFeign进行微服务间通信时，常遇到以下典型错误：feign.codec.DecodeException:Couldnotextractresponse:nosuitableHttpMessageConverterfoundforresponsetype[classXxxResponse]andcontenttype[text/plain;char
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
Android 自定义View 绘制一条颜色渐变，粗细渐变的线 nc_kai 笔记 Android 安卓
自定义View绘制一条颜色渐变，粗细渐变的线效果图如下：自定义View代码importandroid.annotation.SuppressLintimportandroid.content.Contextimportandroid.graphics.*importandroid.util.AttributeSetimportandroid.util.Logimportandroid.view.V
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

【Image Text Matching】Learning Semantic Concepts and Order for Image and Sentence Matching

Learning Semantic Concepts and Order for Image and Sentence Matching

Abstract

1. Introduction

2. Related Work

2.1 Visual-semantic Embedding Based Methods

2.2 Image Captioning Based Methods

3. Semantic-enhanced Image and Sentence Matching

3.1 Sentence Representation Learning

3.2 Image Semantic Concept Extraction

3.3 Image Semantic Order Learning

3.3.1 Global Context as Reference

3.3.2 Sentence Generation as Supervision

3.4 Joint Matching and Generation

4. Experimental Results

4.1 Datasets and Protocols

4.2 Implementation Details

4.3 Evaluation of Ablation Models

4.4 Comparison with State-of-the-art Methods

4.5 Analysis of Image Annotation Results

5. Conclusions and Future Work

5. Conclusions and Future Work

你可能感兴趣的:(Paper,NLP,Image,text,matching,自然语言处理,image,text)