EDPJ

（2021|EMNLP，CLIP，CLIPScore，RefCLIPScore）CLIPScore：图像标题的无参考评估指标

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

公z号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 相关工作

3. CLIPScore

4. 标题评估基准

4.1 标题级别的 Likert 判断

4.2 Pascal-50S 上的成对排名

4.3 MSCOCO 的系统级相关性

4.4 CLIP-S 对“幻觉”敏感性

4.5 CLIP-S 对记忆的敏感性

4.6 我应该报告哪些度量标准？

5. 使用 CLIPScore 的案例研究

5.1 Twitter 的替代文本评分

5.2 Abstract-50S

5.3 个性化标题

5.4 新闻图像标题

6. 结论

S. 总结

S.1 主要贡献

S.2 架构和方法

0. 摘要

图像标题（captioning）传统上依赖于基于参考的自动评估，其中机器生成的标题与人类编写的标题进行比较。这与人类评估标题质量的无参考方式形成了对比。

在本文中，我们报告了一个令人惊讶的实证发现，CLIP（Radford等，2021），一个在来自网络的400M 图像-标题对上预训练的跨模态模型，可以用于对图像标题的强大自动评估，而无需参考。跨足几个语料库的实验证明，我们的新的无参考度量，CLIPScore，与人类判断的相关性最高，优于现有的基于参考的度量，如 CIDEr 和 SPICE。信息增益实验证明，CLIPScore 专注于图像-文本兼容性，与侧重于文本-文本相似性的现有基于参考的度量是互补的。因此，我们还提出了一个参考增强版本，RefCLIPScore，它实现了更高的相关性。除了文字描述任务，几个案例研究揭示了 CLIPScore 在表现良好的领域（剪贴画图像、替代文本评分），但也在相对较弱的领域（例如需要更丰富背景知识的新闻标题）与基于参考的度量相比。

1. 简介

对于大多数文本生成任务，基于参考的 n-gram 重叠方法仍然是自动评估的主要手段。对于图像标题生成，最近的基于参考的度量方法试图通过考虑更丰富的参考-候选相似性模型来超越重叠，例如近似场景图（Anderson等，2016），允许基于参考的方法整合图像（Jiang等，2019；Lee等，2020）。但是，收集参考可能很昂贵，并且即使每个图像有多个人编写的标题通常也是不足够的（见图 1）。因此，对于许多语料库，基于参考的评分与人类质量判断之间仍然存在显著差距。

我们是否需要为图像标题的评估准备参考？毕竟，当人们评估图像标题的适当性时，我们只需查看图像并阅读候选文本即可。

机器翻译中的一个最新趋势作为灵感：其中，无参考评估（有时称为质量估计）的一个关键难题是估计源-候选对之间的跨语言相似性（Blatz等，2004；Specia等，2010；Mehdad等，2012；Specia和Shah，2018）。但是最近的研究（Lo，2019；Yankovskaya等，2019；Zhao等，2020）通过利用大规模、预先训练的多语言模型（例如LASER（Artetxe和Schwenk，2019）或MBERT（Devlin等，2019））学到的跨语言表示，改善了与人类判断的相关性。

我们假设预训练的视觉-语言模型（例如 ALIGN（Jia等，2021）和 CLIP（Radford等，2021））学到的关系可能同样支持图像标题的无参考评估。事实上，它们可以：我们展示了将 CLIP 相对直接地应用于（图像，生成的标题）对，在一系列标准图像描述基准测试（例如 MSCOCO（Lin 等，2014））上，结果与人类判断呈现出令人惊讶的高相关性。我们将这个过程称为 CLIPScore（缩写为 CLIP-S）。除了与人类判断的直接相关性外，信息增益分析显示，CLIP-S 既对常报告的度量（如 BLEU-4、SPICE 和 CIDEr）具有补充性，也对新提出的基于参考的度量（例如ViLBERTScore-F（Lee等，2020））具有补充性。

此外，我们（1）提出了 CLIPScore 的一个参考增强版本，RefCLIPScore，它实现了更高的人类相关性，（2）验证了 CLIP-S 对于对抗性构建的图像标题的敏感性，其中一个名词短语已被替换为一个合理的（但不正确的）干扰项；和（3）构建了一个从未公开发布过的图像语料库，以验证CLIP-S 能够重建人类对以前从未见过的图像的判断。

最后，我们在与四个案例研究的背景下评估了 CLIP-S，这些案例研究不同于无上下文的文字照片描述。在两种情况下，CLIP-S 效果良好：它在 Twitter 上与替代文本（alt-text）质量评分高度相关，并展现出对剪贴画图像-标题进行推理的惊人能力。对于新闻标题生成，基于参考的方法与人类判断最相关。而对于受社交媒体语言启发的情感标题，即使基于参考的度量也无法完全满足。

2. 相关工作

仅基于参考的图像标题评估。通常，图像标题生成模型通过一套基于参考的 5 个度量标准进行评估：BLEU-4（Papineni等，2002）（衡量候选与参考之间的一种 precision 版本），ROUGE-L（Lin，2004）（衡量一种 recall 版本），METEOR（Banerjee和Lavie，2005）（计算单词级别的对齐），CIDEr（Vedantam等，2015）（结合 n-gram tf-idf 加权和词干处理），以及 SPICE（Anderson 等，2016）（对一组参考应用语义解析器，并使用预测的场景图计算相似性）。Yi 等人（2020）提出了一种特定调整到图像标题生成领域的 BERTScore（Zhang等，2020）的重新加权方法（我们将其称为 BERT-S++）。

参考+图像标题评估。最近的度量标准除了使用参考外，还包含图像-文本对齐特征：TIGEr（Jiang等，2019）使用预训练的 SCAN 模型（Lee等，2018），而 ViLBERTScore-F（Lee等，2020）使用预训练的 ViLBERT 模型（Lu等，2019），该模型还在 12 个下游视觉和语言任务上进行了微调（Lu 等，2020）。我们的工作提供了关于下一个逻辑扩展的视角：我们是否可以完全忽略参考，而不是在参考之外还加入视觉-文本交互。

图像标题的自检索。先前的工作已经提出了将自检索损失引入标题生成中的方法，其直觉是良好的标题应该能够以高准确度唯一地识别其图像（Dai和Lin，2017；Luo等，2018；Liu等，2018）；监视这种类型的损失可以提供有关模型本身对标题的独特性有多强的见解。CLIP-S 在灵感上类似，但以其作为类似 BLEU-4 或 CIDEr 的外部评估度量的效用而独特。

无参考评估。除了引言中突出的机器翻译案例外，已经提出了其他生成任务的无参考评估，包括摘要（Louis和Nenkova，2013；Peyrard和Gurevych，2018；Sun和Nenkova，2019）和对话（Tao等，2018；Mehri和Eskenazi，2020）。这些度量标准可以是受监督的，依赖于人类判断进行质量评估，也可以是较少监督的，依赖于预训练模型表示。对于图像标题，提出了 VIFIDEL 的一个版本（Madhyastha等，2019）用于无参考评估；然而，基于固定目标词汇表中的图像中检测到的目标的列表计算的 VIFIDEL 通常与基于参考的度量相比，与人类评分的相关性较低。

3. CLIPScore

模型细节。CLIP（Radford等，2021）是一个跨模态检索模型，训练数据包括从网络中收集的 4 亿（图像，标题）对。在搜索引擎上执行了 50 万个搜索 query,，包括常见的单字/双字词、命名实体等。对于每个 query，收集了最多 2 万个（图像，标题）对。

我们使用的模型是 ViT-B/32 版本。它通过 Vision Transformer（Vaswani等，2017；Dosovitskiy等，2021）表示图像，该模型放弃了卷积滤波器，而是采用自注意力映射，在图像块的 7x7 网格之间计算，该网格均匀分割了 224x224 像素的输入图像。此模型有 12 个 Transformer 层和 8600 万个参数。文本同样由一个 12 层的 Transformer 表示，训练过程中使用了包含 49K BPE （Byte Pair Encoding）标记类型的词汇表（Sennrich等，2016）（更详细的描述请参见Radford等，2019）。文本和图像网络都输出单一向量；这些向量旨在分别表示输入标题或图像的内容。在 ViT-B/32 的情况下，这些向量是 512 维。模型的权重经过训练，通过 InfoNCE（Sohn，2016；Oord等，2018）最大化真正对应的图像/标题对的余弦相似性，同时通过最小化不匹配的图像/标题对的相似性。我们在实验中保持这组权重不变。

评估使用 CLIP 的标题生成。为了评估候选生成的质量，我们通过它们各自的特征提取器传递图像和候选标题。然后，我们计算结果嵌入的余弦相似性。我们发现，在候选前缀中加上提示：“A photo depicts” 稍微改善了相关性（这是我们推荐的/标准配置），尽管 “A photo of”，Radford等人（2021）的推荐提示，也效果良好。按照 Zhang 等人（2020）的做法，我们执行重新缩放操作。对于具有视觉 CLIP 嵌入 v 和具有文本 CLIP 嵌入 c 的候选标题，我们设置 w = 2.5，并计算 CLIP-S 如下：

计算语料库级别的 CLIP-S 时，我们简单地对（候选，图像）对取平均值。请注意，此评估不依赖于基础参考。使用 ViT-B/32 骨干的 CLIP-S 的运行时间很快：在我们的单个消费者 GPU 和硬盘上，大约可以每分钟处理 4K 个图像-候选对。

RefCLIPScore。如果有参考的话，CLIP-S 还可以扩展到与参考结合。我们通过将每个可用参考传递到 CLIP 的文本 transformer 中来提取它们的向量表示；结果是所有参考的向量表示集合 R。然后，RefCLIPScore 被计算为 CLIP-S 和最大参考余弦相似度的调和平均值，即，

4. 标题评估基准

我们首先在一组文字描述语料库上进行评估。总体而言，这些语料库中的标题（caption）旨在识别和突出显示摄影图像中的文字、显著对象/动作，而不提供额外的上下文。

4.1 标题级别的 Likert 判断

我们首先研究了三个包含人类 Likert 判断的语料库，这些判断是在单个图像/标题对的级别上进行的。Flickr8K-Expert（Hodosh等人，2013）包含了 17K 个 “专家” 人类判断，涉及 5664 张图像：人类在 1 到 4 上对标题进行评分（4=“标题描述图像没有错误”；1=“标题与图像无关”）。Flickr8K-CF 是从 CrowdFlower 收集的包含 145K 个二元质量判断的数据集，覆盖了 48K个（图像，标题）对（1K 个唯一图像）。每对至少有 3 个二元判断，我们取 “yes” 的平均比例作为每对的分数来计算相关性。

Composite（Aditya等人，2015）包含了来自 MSCOCO（2007 张图像）、Flickr8k（997 张图像）和 Flickr30k（Young等人，2014）（991 张图像）的图像之间的 12K 个人类判断。每个图像最初有五个参考文本，但其中一个被选定由人类在该集合中进行评分（因此在计算度量时我们将其从参考集中移除；这与一些之前的工作不同，请参见附录 A，了解我们为什么考虑更难的设置）。对于 Composite 和 Flickr8K 的判断，我们使用 Kendall 公式计算每个度量与人类评分之间的相关性。结果对于 Flickr8K-Expert 的结果见表 1，对于 Flickr8K-CF 的结果见表 2（在 b 中，参照 Cui 等人（2018）），对于 Composite 的结果见表 3。对于我们考虑的标题级别语料库，与以前提出的依赖于参考文献的度量相比，没有引用的 CLIP-S 在与人类判断的相关性上表现更好。此外，在所有情况下，RefCLIP-S 进一步提高了相关性。这为以下结论提供了有力的证据：在这些文字摄影图像描述任务的标题级别上，CLIP 的相对直接的应用可以作为一个强有力的自动评估度量。

4.2 Pascal-50S 上的成对排名

在 Pascal-50S（Vedantam等人，2015）中，评估者对句子对进行了成对偏好判断。总共有 4K 个句子对，均匀分布在四个类别中，例如，两个人类标题，两个机器标题等。对于每对，收集了 48 个人类成对判断。按照先前的工作，我们不计算相关系数，而是计算准确性，即，我们认为由大多数注释者偏好的标题是正确的，并测量评估度量多频繁地为该对的成员分配更高的分数。平局将随机打破。由于在 48 个候选人中随机选择了 5 个参考作为基于参考的度量的基本事实，结果可能与先前的工作略有不同（我们对 5 次参考的随机抽取取平均值）。结果见表 4。评估被分为标题对的四个类别（详细说明见表题）。在所有类别中，CLIP-S 和 RefCLIPS 通常表现出较高的性能。

4.3 MSCOCO 的系统级相关性

CLIP-S 在系统级别上也与人类判断达到了很高的相关性：我们评估了提交到 2015 年 MSCOCO 图像标题挑战赛（Vinyals等人，2016）的系统的输出。我们对这个语料库的标准评估设置有一些顾虑，主要与它只包含 12 个数据点有关（更多讨论请参见附录）。尽管如此，按照标准程序，我们将 CLIP-S 和 RefCLIP-S 与两个度量相关联：“被评价为优于或等于人类标题的百分比（M1）”和通过 “图灵测试” 的标题百分比（M2）。使用这些系统级别度量，CLIP-S 实现了 Spearman ρ_M1 / ρ_M2 = .59 / .63，而 RefCLIP-S 实现了 ρ_M1 / ρ_M2 = .69 / .74（所有 p < .05）。

4.4 CLIP-S 对“幻觉”敏感性

先前的研究表明，在许多文字描述任务中，人类通常更喜欢标题的正确性而不是特异性（Rohrbach等人，2018，2017）。因此，了解评估度量如何处理包含不正确 “幻觉” 的图像标题，例如对未描绘的对象的引用，是很重要的。我们使用了来自 FOIL 数据集的图像标题样本，该数据集由 Shekhar等人（2017）构建，以测试 CLIP-S 对于检测可能含有不准确细节的描述的敏感性。该语料库由 MSCOCO 的修改后的参考标题组成，其中一个名词短语被对抗性地替换掉，使 FOIL标题变得不正确，例如，将 “摩托车” 换成 “自行车”。

为了适应我们的设置，对于 32K 个测试图像中的每一个，我们采样一个（FOIL，真实）对，并计算每个评估度量在将更高的分数分配给真实候选而不是 FOIL 的能力中的准确性。为了计算基于参考的度量，我们提供 MSCOCO 图像的参考标题（不包括用于评估 FOIL 的真实候选）。虽然我们考虑的成对设置并不完全相同，Shekhar 等人（2017）估计在任务的未成对版本中，相对于 50/50的随机猜测基线，大约有 92% 的人类一致性。

表 5 包含了结果。在这种设置下，对于基于参考的度量来说，访问更多的注释是非常有帮助的，例如，从一个到四个参考的转变会使 SPICE 和 BLEU-4 的准确性提高超过十个百分点。但在有限参考的情况下，没有任何参考的 CLIP-S 胜过除 BERT-S（RoBERTa-F）之外的所有度量。而 RefCLIP-S 在所有情况下都效果最好。总体而言，我们使用了Shekhar等人（2017）的语料库，特别是在有限的参考可用的情况下，证实了 Rohrbach 等人（2018）的发现，“对象幻觉不能总是基于传统的句子度量来预测”。然而，在成对设置中，CLIP-S 和 RefCLIP-S 提供了性能改进。

4.5 CLIP-S 对记忆的敏感性

关于基于模型的评分方法的一个担忧是记忆，即，如果一个模型的权重是使用大型语料库预训练的，存在一种风险，即在评估时使用的数据在预训练时已经被看到。尽管 Radford 等人 (2021) 进行了一项训练-测试重叠分析，并发现 CLIP 由于记忆而不太可能成功，但我们仍然进行了一项实验，使用了 CLIP 之前从未见过的图像。

本文的作者创建了一组 250 张从未发布到互联网上的图像，通过汇总个人照片而成。该集合包含各种类似于 Flickr 的情境，例如自然场景、动物、城市街道、物体等。对于每张图像，我们收集了两个自动生成的标题：一个来自商业 API，Microsoft Azure Cognitive Services (v 3.1)10，另一个来自 Luo 等人 (2018) 的预训练模型，该模型经过训练以最大化与自临界基线的 CIDEr 分数。然后，对于每张图像，本文的三位作者独立选择了哪个标题更准确地描述了图像内容。相对于 50% 的随机基线（和选择较短标题的 72% 长度基线），CLIP-S 在 86% 的情况下正确恢复了大多数人的首选。此语料库的人类一致性为 93%。

虽然这个设置不能明确反驳 CLIP 之所以工作良好是因为它已经记住了图像的观点，但我们希望这里的结果能为关于 Web 规模预训练模型泛化性质的讨论做出贡献。

4.6 我应该报告哪些度量标准？

大多数标题生成工作报告了多个度量标准，每个度量标准（据推测）与人类判断有不同程度的相关性。但并不总是清楚个别度量标准是否捕捉到人类判断的不同或冗余维度。例如，虽然 CLIP-S 和 ViLBERTScore-F 都产生了高度相关性，它们是冗余的还是互补的并不总是清楚。

我们寻求解释人类判断中最大方差的（最小）度量标准集。为了找到这个集合，我们对包括六个广泛报告的度量标准 13 和四个新度量标准 BERT-S（RoBERTa-F）、TIGEr、ViLBERTScore-F 和 CLIP-S 的十个候选度量标准进行了前向选择（我们还包括以 RefCLIP-S 而不是 CLIP-S 开始的实验）。从一个空集开始，我们通过选择最具信息的附加度量标准进行迭代贪婪选择添加。为了估计方差，我们使用语料库的 bootstrap 重采样版本重复进行前向选择过程 10 次。

图 2 显示了在 Composite 和 Flickr8K-Expert 语料库上运行此实验所产生的信息增益；我们还显示了在每次迭代中最常选择的度量标准是哪一个（较早 = 更多信息增益）。对于 Composite，CLIP-S（或 RefCLIP-S）总是首先被选择，然后是 ViLBERTScore-F，然后（最常见的是） BERT-S（RoBERTa-F）。对于 Flickr8k-Expert，前三个选择总是 CLIP-S（或 RefCLIP-S）、ViLBERTScore-F 和 SPICE。虽然 CLIP-S 和 ViLBERTScore-F 倾向于是最具信息的度量标准，（1）尽管它们相关，它们并不纯粹是冗余的；（2）像 SPICE 这样的不考虑图像的基于参考的度量标准仍然可能是有用的。

总的来说，这些结果表明，像 CLIP-S 这样考虑视觉内容的评估度量标准确实捕捉到了目前由纯文本参考度量标准未涵盖的人类判断轴。对于我们考虑的文字图像描述评估设置，报告的度量标准的一个合理组合至少应包括一个图像感知度量标准（例如，CLIP-S）和一个强的仅参考度量标准（例如，SPICE）。

5. 使用 CLIPScore 的案例研究

迄今为止，我们的结果已经证明了 CLIP 编码了对评估文字图像描述任务有用的信息。但是，与 CLIP-S 相比，基于参考的度量标准可能在先验上似乎更具适应性。CLIP-S 是否与人类判断在 MSCOCO 和 Flickr8K 之类的情况之外的案例中存在相关性呢？为了解决这个问题，我们考虑了四个案例研究，探讨了在 “不同” 图像描述数据集中 CLIP-S 与人类判断之间的相关性。这些语料库在质量上与第 4 节探讨的更受欢迎的领域不同，要么是因为图像不是来自 Flickr 的 “日常” 图像，要么是因为标题不是文字描述（图 3 说明）。

5.1 Twitter 的替代文本评分

在上传推文时，Twitter 用户有提供替代文本的选项：尽管很少有人使用这个功能（Gleason 等人 (2019) 发现少于 0.1% 的图像推文有替代文本），但它的广泛采用可能在某一天使社交媒体对低视力和盲用户更具可访问性。我们衡量了 CLIP-S 重建了一组 2.8K 人类对替代文本质量的判断的能力。这个语料库由 Gleason 等人 (2019, 2020) 的作者收集和评分。每个替代文本都根据其作为替代文本的可能效用在 0 到 3 的尺度上评分。虽然评分人员本身是有视力而不能直接评估给定替代文本（alt-text）对低视力或盲评用户的效用，但他们是设计和评估替代文本系统的专家。推文是从 Twitter FireHose API 和站点的低视力和盲评用户的时间轴中混合抽样的。在质量上，这些图像与 Flickr 等领域相比更广泛，例如截图、表情包等。替代文本的候选项是用户上传和机器生成的混合。该语料库不包含参考，但为了与基于参考的度量标准进行比较，我们（通过编程方式）将推文的任何文本上下文都视为参考。

CLIP-S 在与人类判断的相关性方面达到了48.4％。相比之下，由于推文文本不够可靠作为可行的替代文本，基于参考的方法表现不佳：最佳的纯基于参考的度量标准 BERT-S（RoBERTa-F）（达到15％）相对于长度基线（达到25％）表现较差。虽然收集高质量的上下文参考替代文本是未来工作的一个有希望的方向，但在这个领域，CLIP-S 提供了一个有希望的评估度量标准候选。

5.2 Abstract-50S

我们评估 CLIP-S 在抽象的非摄影剪贴画图像上的泛化能力，使用 Abstract-50S（Vedantam 等人，2015）。该数据集将剪贴画图像（最初由 Zitnick 和 Parikh（2013）构建）与 48 个人工编写的参考标题配对。这些图像描绘了两个卡通角色，Mike 和 Jenny，在各种户外情境中，例如进行体育运动、野餐等。对于 400 个人工编写的候选标题对（其中 200 对来自同一图像，200 对来自不同图像），收集了人类判断：标注者被指示选择哪个配对的标题更类似于每个参考标题，因此为每个候选对收集了 48 个判断（总共 19200 个）。当给定对五个参考标题的随机样本访问时，我们将 CLIP-S 与几个基于参考的度量标准进行比较。按照我们对 Pascal-50S 的程序，我们随机重新采样了 5 次，并报告了平均成对准确性。两个基线（BL）都达到了 53：仅长度（即，说较长的标题更好）和将图像随机洗牌作为输入提供给 CLIP-S（以便它不能依赖有意义的视觉-文本交互）。

总体而言，虽然相对于基于参考的度量标准，CLIP-S 的性能较差，但相对于基线来说，它的表现要好得多。这个结果表明，即使在非摄影图像中，CLIP-S 也能够推理关于视觉-文本交互的信息。

5.3 个性化标题

受社交媒体上的语言使用启发，Shuster 等人（2019）通过提示标注者以 “个性”（例如，戏剧性的、富有同情心的、悲伤的等）收集了图像标题，并要求他们 “在给定个性特征的情境下，写一个别人会觉得有趣的图像评论”。为了评估他们的模型，作者收集了成对的人类判断，评估者被指示“选择哪个评论最引人入胜”。我们评估 CLIP-S 的两个能力： (1) 它是偏好文字描述，还是较不文字的、更引人入胜的个性化标题？; (2) 如果给定两个个性化标题，它能否预测人类判断哪个更引人入胜？

对于（1）：在一组 2.4K 的 “传统” 与个性化标题成对评分中，人类评价个性化标题更引人入胜的比例为 65%，而 CLIP-S 更喜欢传统的描述的比例是 80% 。我们的结论是：当给定一个直接的描述和一个更引人入胜的非文字标题时，CLIP-S 通常会更喜欢文字描述。

对于（2）：CLIP-S 的性能略优于随机，例如，在比较两个神经生成模型（TransResNet（ResNeXt-IG-3.5B）与 TransResNet（ResNet-152））的 2.5K 人类成对判断时，为 57%，但不比仅长度的基线更好（也是 57%）。值得注意的是，即使是基于参考的度量标准也未能与该语料库上关于引人入胜的成对人类判断提供相关性：例如，当提供一个个性化的参考时，BLEU-4、CIDEr 和 SPICE 分别在 52%/53%/51% 的情况下与人类判断一致。我们的结论是：当给定两个引人入胜的非文字描述时，无论是 CLIP-S 还是传统的基于参考的度量标准都未能预测人类会判断哪个更引人入胜。

5.4 新闻图像标题

Biten 等人（2019）考虑了纽约时报文章中的图像标题生成；他们的任务与 MSCOCO 不同，因为 1) 95% 的标题至少包含一个命名实体，例如政治家、名人或地方；2) 标题通常 “不描述场景对象，而是提供场景的情境化解释”。他们在 106 张图像上收集了 2.1K 对人类判断，比较了两个新闻图像标题生成模型的性能。对于每张图像，有 20 个标注者被指示选择两个模型生成中哪个更接近地面真实标题（他们还看到了图像本身）。我们比较了度量标准在匹配两个候选之间的人类判断方面的准确性。

基于参考的度量标准占主导地位：METEOR 和 BLEU-4 的准确性分别达到了 93 和 91，而 CLIP-S 的准确性仅略高于随机的 65。从质量上来看，CLIP-S 在存在可以通过视觉验证的内容时成功，例如，将黑白照片与较早的日期进行匹配（例如，在一个案例中选择 1933 年 vs. 1977 年），以及匹配特别有代表性的名人（例如，它自信地识别出穆罕默德·阿里拳击）。但它最常见的失败案例是仅通过图像内容可能无法验证的标题。例如：对于一个房间的图像，CLIP-S 选择了 “Elle Decor 的餐厅”，但标注者更喜欢提到 “纽约青年联盟” 的标题；地面真实标题揭示了为什么图像被拍摄的原因：“纽约青年联盟于 5 月 7 日进行的曼哈顿家庭之旅。”

总体而言，在这种情况下，我们不提倡无参考的评估，特别是因为我们的结果表明（至少对于这个特定的注释集），基于参考的 n-gram 重叠度量与人类判断存在高度相关性。

6. 结论

对于文字图像描述任务，CLIPScore 在不使用参考时以现成的方式实现了与人类对标题质量的判断的高度相关性。对于不同领域的附加实验表明，CLIP 还可以推理非摄影剪贴画，并且在替代文本（alt-text）情况下作为无参考评估的合理选择。有希望的未来工作包括探索：1) 将 CLIP-S 作为文字标题生成器的强化学习奖励；和 2) 少量标记的人类评分数据是否可以帮助 CLIP-S 适应其困难的领域，例如引人入胜的预测。我们希望我们的工作能够为有关预训练模型在生成评估中的作用的持续讨论做出贡献。

无参考评估存在一些风险。与 BERTScore 一样，基于模型的度量标准如 CLIP-S 反映了预训练数据的偏见。虽然我们认为将 CLIP-S 用作文字标题质量的离线评估指标符合 CLIP 模型卡（Mitchell 等人，2019）的建议，Agarwal 等人（2021）的研究表明 CLIP 可能对人们进行不成比例的错误分类，例如，“男性图像被误分类为与犯罪相关的类别。” 探讨候选生成的潜在社会偏见（例如，参见 Hendricks 等人（2018））仍然至关重要，特别是如果要部署系统。

同期工作。在提交过程中，引入了两个替代的无参考评估度量，用于图像标题生成：FAIEr（Wang 等人，2021）（基于预训练的目标检测器，并在 MSCOCO 上进行微调）和 UMIC（Lee 等人，2021）（基于 UNITER（Chen 等人，2020））。特别是 UMIC 在直接图像描述任务（§4）上与 CLIP-S 相比产生了类似的与人类判断的相关性，但采用了在合成负面标题上进行微调的补充方法。未来的工作可以探索 Lee 等人（2021）提出的文本数据增强是否会产生一种与未微调的 CLIP-S（第 4.6 节）相补充或相重叠的度量标准；以及（2）是否可以扩展到非文字描述的情况（第 5 节）。

S. 总结

S.1 主要贡献

预训练的跨模态模型 CLIP 是用于图像标题的强大自动评估，且无需参考。本文提出无参考度量，CLIPScore，与人类判断的相关性最高，优于现有的基于参考的度量，如 CIDEr 和 SPICE。信息增益实验证明，CLIPScore 专注于图像-文本兼容性，与侧重于文本-文本相似性的现有基于参考的度量是互补的。因此，还提出了一个参考增强版本，RefCLIPScore，它实现了与人类判断更高的相关性。

S.2 架构和方法

CLIP。本文使用的模型是 ViT-B/32。

它通过使用自注意力映射的 Vision Transformer 表示图像。此模型有 12 个 Transformer 层和 8600 万个参数。
文本同样由一个 12 层的 Transformer 表示，训练过程中使用了包含 49K BPE （Byte Pair Encoding）标记类型的词汇表。
文本和图像网络都输出单一向量；这些向量旨在分别表示输入标题或图像的内容。
模型的权重经过训练，通过 InfoNCE 最大化真正对应的图像/标题对的余弦相似性，同时通过最小化不匹配的图像/标题对的相似性。在实验中保持这组权重不变。

CLIPScore 的计算如下所示：

其中，v 是视觉 CLIP 嵌入，候选标题 c 的文本 CLIP 嵌入，设置 w = 2.5。

RefCLIPScore。将每个可用参考标题传递到 CLIP 的文本 transformer 中来提取它们的向量表示。然后，RefCLIPScore 被计算为 CLIP-S 与最大参考余弦相似度的调和平均值，即，

你可能感兴趣的:(论文笔记,计算机视觉,深度学习,transformer)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
LLamaFactory 微调Qwen-VL-3B时报错TypeError: argument of type ‘NoneType‘ is not iterable 闲云野鹤01 大模型 linux 视觉检测 transformer
LLamaFactory微调Qwen-VL-3B时报错如下：TypeError:argumentoftype'NoneType'isnotiterable修改方式如下所示：进入\src\llamafactory文件夹，打开cli.py文件在文件头添加如下语句fromtransformersimportmodeling_utilsifnothasattr(modeling_utils,"ALL_PA
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交