论文：Visual Grounding with Transformers

作者

摘要

本文中，我们提出了一种基于transformer的可视接地方法。与以前的proposal and rank框架（严重依赖预训练对象检测器）或proposal free框架（通过融合文本嵌入来升级现成的单级检测器）不同，我们的方法构建在transformer编码器-解码器之上，独立于任何预训练检测器或单词嵌入模型。我们的方法被称为VGTR——带transformer的视觉接地，旨在在文本描述的指导下学习语义区分视觉特征，而不损害其定位能力。这种信息流使我们的VGTR在捕获视觉和语言模式的上下文级语义方面具有强大的能力，使我们能够聚合描述所隐含的准确视觉线索，以定位感兴趣的对象实例。实验表明，我们的方法在保持快速推理速度的同时，在五个基准上比最新的proposal-free方法有相当大的优势。

Note：分割主要分为两类：基于候选区域的实例分割（proposal-based）和免候选区域的实例分割（proposal-free）。其中，proposal-based先获取场景中的感兴趣的候选区域，如：包括R-CNN,Fast R-CNN,Faster R-CNN and R-FCN等，并在候选区域内对数据进一步预测得到实例标签。考虑到proposal-based 实例分割通常需要2个过程（先得到候选区域，再实例分割），分割过程繁琐，则proposal-free则摒弃了基于候选区域的方式，直接通过数据特征或者结合语义分割结果，得到实例分割结果。如：YOLO and SSD

Introduction

视觉接地的目的是从图像中定位查询语句引用的对象实例。由于其在视觉和语言导航[36]以及自然人机交互方面的巨大潜力，该任务越来越受到学术界和工业界的关注。它可以使许多其他多模态任务受益，例如视觉问答[13]、图像字幕[17]和跨模态检索[29]，仅举几例。
视觉基础是一项具有挑战性的任务。如图1所示，一个对象实例可以由多个引用表达式引用，类似的表达式可以引用不同的实例。因此，它需要全面了解这两种方式，即：。E复杂的语言语义和多样的图像内容，不仅是其中的对象实例，还包括它们之间的关系，以实现成功的视觉基础。更重要的是，模型需要在两种模式之间建立上下文级别的语义对应，因为目标对象是可区分的根据其他对象的视觉上下文（即属性和与其他对象的关系）以及与文本描述的语义概念的对应关系，从其他对象中提取信息。

图1。视觉接地任务说明。这是非常具有挑战性的，因为一个对象实例可能会被多个查询语句引用，而类似的表达式可能会引用不同的实例。我们的方法能够准确地定位引用的实例，即使对于复杂的表达式也是如此。绿色盒子是基本真理；蓝色和红色框是我们方法的结果。框和表达式之间的对应关系由其颜色标识。

早期的尝试[22,16]将视觉基础视为基于文本的图像检索的特例，并将其作为给定图像中一组候选区域的检索任务。他们利用现成的对象检测器或建议方法生成一组候选对象区域，然后根据它们与引用表达式的相似性对它们进行排序。将检索排名靠前的一个。这些方法严重依赖于预训练检测器，通常忽略对象的视觉上下文，这限制了它们的性能，尤其是当引用表达式是包含对象实例复杂描述的长句时。
为了解决这些限制，一些作品试图对所有proposal[23]或整个图像[41,9]的视觉背景进行编码。在它们的设置中，所有建议或整个图像的特征都用作对象实例的支持上下文。这种策略忽略了对象之间的关系建模，容易造成信息冗余的困境，即信息冗余。E并不是所有的方案都能为确定目标对象提供有用的线索。为了解决这个问题，一些工作侧重于选择proposal的子集，并对它们之间的关系进行建模，以形成上下文特征。例如，[4,52]在语言描述的指导下关注少量proposal；[40、44、43]根据图像中的空间关系过滤对象建议.

虽然用proposal子集总结参与的对象可以实现更具区别性的特征学习，但这些方法仍然难以实现视觉和语言之间的语义对齐。除此之外，其中许多都受到候选对象proposal质量的限制，并且在生成和处理这些候选对象时会产生额外的计算成本。最近，许多工作[12,5,33,46,45]转向简化视觉接地管道，放弃proposal生成阶段，直接定位参考对象。这个新的管道在目标检测网络上执行手术，并植入引用表达式的特征来增强它。尽管有优雅的结构和推理效率，视觉和文本上下文的特征是相互独立的。如何更有效地学习和融合这两个特性仍然是一个有待解决的问题。
在这项工作中，我们通过开发一个基于端到端transformer的接地框架（称为可视接地变压器（VGTR））来缓解上述问题，该框架能够在不生成object proposal的情况下捕获文本指南DVISUALContext。我们的模型的灵感来源于Transformers在自然语言处理[38]和计算机视觉[11,39,20,3,53,8,27]方面的最新成就。与最近流行的建立在现成检测器之上的接地模型不同，我们提议重组的transformer编码器，以同时处理视觉和语言模式，目的是理解自然语言的描述，获得更多有区别的视觉证据，以减少语义歧义。
具体地说，如图2所示，我们的框架由四个主要模块组成：用于提取视觉和文本标记的基本视觉编码器，用于在视觉语言上执行联合推理和跨模态交互的基础编码器，AgroundingDecoder将文本标记附加为接地查询，并将输出提供给后续头部，以便直接执行预测。我们框架的核心是具有视觉和文本分支的基础编码器，其中利用两种自我注意机制，即语言自我注意机制和文本引导的视觉自我注意机制来分别地理解语言描述的语义并学习文本引导的上下文感知视觉特征。

Our contributions are summarized as follows：
- 我们提出了可视接地Transformer（VGTR），一种有效的端到端框架来解决可视接地问题。我们的模型独立于预训练检测器（如YOLO[30]）和语言嵌入模型（如BERT[10]。
- 我们提议在语言描述的指导下学习视觉特征，使模型能够捕获与语言语义一致的视觉上下文，从而为参考对象的基础提供更准确的线索。
- 我们的方法在五个视觉基础基准上比最先进的无提案方法有相当大的优势，包括Flickr30K实体[26]、RefCOCO[49]、RefCOCO[49]、RefCoCoCog[22]和最近发布的Cops参考文献[6]。

Related work

在本节中，我们将回顾有关视觉接地的文献以及视觉变压器的最新进展。

2.1Visual Grounding

社区中经常研究两类视觉基础方法： propose-and-rank 方法（也称为两阶段方法）和无建议方法（也称为一阶段方法）。
propose and rank方法[4,9,52,40,48,44,43]首先利用现成的检测器或建议生成器从图像生成一组候选对象建议，然后根据语言描述对候选对象进行评分，并选择排名靠前的一个。这些方法受到预训练检测器或方案生成器性能的限制。只有在第一阶段正确地提取了地面真值对象，下面的排序和选择阶段才起作用。
无建议的方法[5,46,33,45]专注于直接定位参考对象，而无需事先生成候选对象。例如，Yanget al.[46]通过将文本特征融合到视觉特征中来重建YOLOv3探测器[30]，并用softmax函数替换最后的sigmoid层，以直接预测目标对象。[45]改进了这个简单而有效的范例，其中建议以迭代方式在图像和语言查询之间进行推理，以逐步减少基础歧义。该策略对于长查询场景特别有用。Sadhuet al.[33]提出了一种称为ZSGNet的单级模式，以解决零炮视觉接地的挑战性问题。这项工作实现了令人鼓舞的性能在zero-shot设置。
Proposal-free范例在准确性和参考速度方面都显示出巨大的潜力，现在正成为社区中的主导框架。关于视觉接地任务及其当前解决方案的全面调查，请读者参考[28]。

2.2Visual Transformer

Transformer[38]最初是为自然语言处理而开发的，是一种基于自我注意机制的深层神经网络。受其强大表示能力的鼓舞，研究人员试图将该体系结构扩展到视觉任务中，如目标检测[3,53,35,8]、分割[39,27]、车道检测[20]和其他[37]。Carionet等人[3]提出了一种新的基于transformer编码器-解码器体系结构的对象检测框架DETR。受[7]的启发，Zhuet al.[53]引入了可变形卷积以减轻DETR的计算负担，从而以更少的训练成本实现更好的性能。Sunet等人[35]开发了一种仅使用编码器的DETR，其性能有所提高，但训练时间更短。从NLP中的预训练变压器中得到启发，Dai等人[8]开发了DETR的无监督训练策略，实现了更快的收敛和更高的精度。这些目标检测方法将图像特征映射重塑为一组标记，并达到与最新技术相当的精度。
除了检测，其他视觉任务也受到变形金刚的启发。Liuet等人[20]使用transformer学习更丰富的车道结构和上下文，并显著提高车道检测性能。Wanget al.[39]将变压器引入全景分割，并通过新颖的双路径变压器设计简化电流管道，从而获得卓越的性能。Timet等人[27]提出了一种基于注意的转换器，用于解决微观结构中细胞的实例分割问题。为了解决人类交流中的多模态问题，Tsaiet等人[37]提出了一种多模态转换器，用于对齐多模态语言序列。
受这些成就的启发，我们相信transformer可以提供一个极好的解决方案来缩小视觉和语言的语义差距。

Approach

本节将详细介绍基于transformer的visual-grounding模型。
我们的目标是通过自我注意机制，在语言表达的指导下，提取高层次的、上下文感知的视觉特征。为了实现这一点，我们首先使用CNN主干提取图像的相对低级和上下文受限的视觉特征映射，并使用基于RNN的软解析器计算相应可变长度语言描述的一定数量的语言嵌入向量。然后，视觉特征被转换和重塑为一组视觉标记，语言嵌入向量被视为一组文本标记，这两个标记都被馈送到重构的转换器编码器中。编码器通过两个不同的分支并行处理视觉和文本标记，其中引入了文本引导的视觉自我注意机制来学习文本引导的上下文感知视觉特征。在编码器步骤之后，处理后的文本标记和视觉标记分别用作接地查询和编码存储器，发送到转换器解码器进行回归，直接定位目标对象。框架的总体架构如图2所示。我们将在以下小节中详细介绍每个模块。

3.1 Basic Visual and Textual Encoder

除了使用复杂的预训练模型（如BERT[10]），我们建议通过基于RNN的soft解析器来学习文本标记。我们的soft解析器的体系结构如图2所示。对于给定的表达式 $E=\{e_{t}\}^{T}_{t=1}$ ，其中 $\Tau$ 指定表达式的长度，我们首先使用可学习的嵌入层将每个单词 $e_{t}$ 嵌入到向量 $u_{t}$ 中；然后应用双向LSTM（Bi-LSTM）[15]对每个单词的上下文进行编码，并计算每个文本标记 $q_{k}$ 每个单词上的注意权重。通过在Bi-LSTM计算的最终隐藏表示上附加一个由所有RNN步骤共享的附加全连接（FC）层和一个后续softmax函数，获得第k个单词上的第k个文本标记的注意权重 $a_{k,t}$ ：
然后，单词嵌入的加权和被用作第k个文本标记：

最后的文本标记由 $X_{q}=\{q_{k}\}^{T_{q}}_{t=1}$ 表示，其中 $T_{q}$ 表示标记的数量， $q_{k}$ has size d=256。

3.2 Visual Grounding Transformer

为了解决缺少基本编码器获得的令牌的上下文信息的问题，我们提出了一种Visual Grounding Transformer进一步处理基本的视觉和文本标记。如图2所示，我们的transformer由two-branch grounding encoder和a grounding decoder组成。下面，我们将详细介绍每个模块。

Grounding Encoder

接地编码器由一堆相同的层组成，其中每层都有两个独立的分支：视觉和文本分支，分别用于处理视觉和文本标记。这与以往采用独立特征提取然后融合的工作有很大不同。每个分支由三个子层组成：一个规范子层、一个多头自关注子层和一个完全连接的前馈子层，遵循尽可能保持变压器原始结构的设计原则。我们在Xionget等人[42]之后使用预规范化而不是后规范化。
如图3所示，对于视觉分支的自关注子层，我们用 $Q_{v}$ 表示视觉查询，用 $K_{v}$ 表示键，用 $V_{v}$ 表示值，对于文本分支的自关注子层，我们用 $Q_{l}$ 表示文本查询，用 $K_{l}$ 表示键，用 $V_{l}$ 表示值。请注意，视觉自我注意体系结构是置换不变的，因此我们使用添加到视觉查询和键中的固定位置编码[24,2]对其进行补充。我们不向文本分支添加额外的位置编码，因为每个文本标记都引用文本描述的特定方面，包括位置信息。规范化所有视觉和文本标记后，将对文本标记应用标准的自我注意机制：
式中 $X^{i}_{q}=\{q_{k}^{i}\in\R^{\Tau_{q}\times{d}}\}$ 表示输入到接地编码器第i层的文本标记，norm（·）表示层规范化操作[1]。为了简洁起见，我们没有在公式中显示线性变换、激活、退出和快捷连接。而不是直接应用单独的自关注机制到归一化的视觉标记，视觉查询Qv不是直接对规范化的视觉标记应用单独的自我注意机制，而是用处理过的文本标记 $X^{i+1}_{q}$ 的标记特定加权和来补充：
然后，文本信息补充的视觉查询 $Q'_{v}$ 以及视觉键和V值被用作另一个自我注意机制的输入，以更新视觉标记，该机制捕获对视觉基础任务至关重要的文本引导上下文信息：

Grounding Decoder

与编码器类似，解码器也由N个相同层的堆栈组成。通过编码器，我们得到修改的视觉和文本标记，它考虑了视觉上下文和两种模式之间的相关性。然后，接地解码器将修改后的文本标记作为输入，作为接地查询，并另外处理修改后的可视标记。通过这种方式，我们在接地查询的指导下，借助于多头自我注意和编码器-解码器对两种模式的所有标记的注意，对文本引导的视觉特征进行解码。
解码器遵循转换器的标准架构，由四个子层组成：规范子层、自关注子层、编码器-解码器关注子层和完全连接的前馈子层。所有接地查询的自我注意机制与等式（4）相同。此外，我们将处理后的接地查询 $Q_{l}$ 作为Querys，接地编码器的文本引导上下文感知视觉标记 $K_{v}$ 作为键， $V_{v}$ 作为值，并使用一个multi-head编码器注意机制，然后使用一个完全连接的前馈网络来转换大小为d的K个嵌入：

Prediction Head

我们用 $P∈\R^{K×d}$ 表示来自接地解码器的变换后的K嵌入，其中 $K=T_{q}$ 表示基础查询的数量，d表示查询向量的大小。我们连接所有变换的向量，然后使用一个由两个完全连接的层组成的预测头，然后再激活ReLU，以回归到目标对象的中心点、宽度和高度。

Loss

Experiment

Conclusion

在本文中，我们提出了Visual Grounding Transformer,，一种有效的端到端框架来解决可视化接地问题。我们建议在语言表达的指导下学习视觉特征。我们框架的核心是具有视觉和文本分支的基础编码器，捕获与语言语义一致的视觉上下文。实验表明，我们的方法比以前的Grounding方法有很大的优势。

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
大模型的学习 LLaMa和ChatGLM，minichatgpt4 贝猫说python 学习 llama 人工智能
LLaMa和ChatGLM，minichatgpt4什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
什么是特征检测和描述，OpenCV中常见的特征检测算法有哪些？ -Max-静- #opencv学习 opencv 算法人工智能
特征检测和描述是计算机视觉中的基本概念，它们在图像识别、对象跟踪、图像拼接等多种任务中发挥着至关重要的作用。特征检测是指识别图像中重要的特定点、区域或结构，这些特征通常具有独特性、可重复性以及对光照变化、旋转和比例变换等变化的鲁棒性。这些特征点可以用作进一步分析的参考。特征描述是基于一定的几何或者颜色信息生成特征点的特征描述符，这种描述应满足欧式空间的仿射不变性和噪声鲁棒性，并且不同特征点的特征描
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
chatGLM-6B部署报错quantization_kernels_parallel.so‘ (or one of its dependencies). Try using the full pat FL1623863129 环境配置深度学习
用python部署chatglm2时候报错：FileNotFoundError:Couldnotfindmodule'C:\Users\Administrator\.cache\huggingface\modules\transformers_modules\chatglm2-6b-int4\quantization_kernels_parallel.so'(oroneofitsdependenc
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置