Ricardo_PING_

文献阅读-VQAR-基于计算机视觉和自然语言处理的信息检索技术综述

VQAR: Review on Information Retrieval Techniques based on Computer Vision and Natural Language Processing

标题：VQAR-基于计算机视觉和自然语言处理的信息检索技术综述

Authors：Shivangi ModiDhatri Pandya

Journal：2019 3rd International Conference on Computing Methodologies and Communication (ICCMC) (2019)

Date：2019-3

DOI：10.1109/iccmc.2019.8819803

Abstract：最近，计算机视觉和自然语言处理范式在各自领域包含了巨大的研究进展。尽管这两个领域都取得了进展，但对于机器来说，提取图像语义并将提取的信息与所需用户进行交流仍然是一项具有挑战性的任务。这些问题将通过连接计算机视觉和自然语言处理范式的视觉问答（VQA）系统来解决。在 VQA 中，系统会收到与该图像相关的图像和文本问题。系统将通过处理图像和文本特征来生成答案。 VQA 生成的答案是一个单词、短语或句子。各种数据集可用于训练和评估 VQA 系统，其中包含真实或抽象图像以及与图像中可用语义相关的问答对。 VQA 被用于许多领域，例如盲人和视障用户、机器人、艺术画廊和更多领域。本文讨论了 VQA 技术、VQA 数据集，并强调了这些技术的参数评估以及 VQA 系统中的一般问题。

Keywords： 视觉问答、计算机视觉、自然语言处理、注意力模型、联合嵌入、组合模型、外部知识库机制。

1. INTRODUCTION

CV的重要性和应用

由于视觉是智能的核心组成部分，计算机视觉对于计算机自行接收和分析视觉数据，进而对图像和视频做出决策具有重要作用。例如，人脸识别、物体检测等各种计算机视觉应用领域都得到了很好的解决。

计算机视觉应用已经无处不在，谷歌的新产品 Goggles 使用了目标检测的概念，Facebook 的面部识别任务也使用了人脸识别的概念。

NLP领域的应用

同样，自然语言处理领域也因其广泛的应用而受到广泛关注，例如机器人技术、语言翻译、文本摘要等等。

尽管这两个领域都取得了进展，但机器从图像中提取语义信息并将提取的信息传达给人类仍然是一项具有挑战性的任务。

由于此任务需要理解图像并将提取的语义信息作为人类自然语言形式与机器进行交流，因此需要视觉和语言知识来推断正确答案。这个问题将通过视觉问答 (VQA) 解决技术。

**VQA 是一个系统，可以预测与图像相关的给定问题的答案 **。该系统提供了对计算机视觉和自然语言处理领域两个重要信息源之间关系的见解。

在 VQA 中，系统将图像和文本问题作为输入，并生成文本答案作为输出。

VQA 是一项具有挑战性的任务，因为系统需要处理图像和文本问题，然后系统才能给出答案。 VQA系统的示例如图1所示。

VQA 由于其在日常生活中的各种用途而引起了广泛的关注，例如盲人或视障用户、图像检索、机器人技术、美术馆和更多领域。例如，盲人用户捕获图像并使用 VQA 系统获取有关视觉信息的知识。

视觉问答中有两种不同类型的评估格式 。

开放式评价格式

在开放式中，VQA 系统提供输入图像和文本问题。系统会通过处理图像和文本问题来生成答案。输入图像是自然场景图像或卡通场景图像。

在开放式视觉问答中，问题主要分为十二个不同的类别，例如对象存在、从属对象识别、计数、颜色属性、其他属性、活动识别、运动识别、位置推理、场景分类、对象实用程序、情感理解和荒谬的。

选择题式评价格式

在选择题型格式中，系统提供输入图像、文本问答选项。这些选项将是正确的、似是而非的、流行的或随机的。

VQA 方法分为基于联合嵌入、注意、组合和外部知识的模型，用于实现 VQA 系统。

本文旨在对 VQA 模型和技术进行综述。本文组织如下：在第 2 节中，讨论了 VQA 系统框架、VQA 模型及其不同的 VQA 技术。第 3 节讨论 VQA 技术的参数评估。现有 VQA 技术的主要问题在第 4 节中介绍。

2.RELATED WORK

本节详细介绍各种视觉问答模型；他们的技术和各种 VQA 技术的参数评估。

2.1 VQA系统框架

VQA系统的总体框架如图2所示。VQA框架包括系统输入、计算机视觉任务、自然语言处理任务和答案生成模块。

最初，VQA 系统以图像和文本问题作为输入。

然后通过计算机视觉和自然语言处理任务系统对输入图像和文本问题进行处理并生成视觉和文本表示。

在生成图像特征和问题编码向量系统后，将两个输出向量组合在一起。

生成的输出向量将进入适当的 VQA 模型，VQA 模型根据输入图像中存在的语义预测并生成给定问题的答案。

CV Task

为了生成输入图像的视觉表示，不同的 VQA 技术使用不同的 CNN（卷积神经网络），如 AlexNet 、VggNet 、GoogleNet 、ResNet 等。

NLP Task

CNN 将图像作为输入并提取图像的语义特征。 CNN 的初始层提取图像的较低级别特征，如边缘、线条、角、亮度等，然后 CNN 层提取整个对象。

为了生成输入问题的文本表示，不同的 VQA 技术使用 RNN（递归神经网络或 LSTM（长短期记忆））。为了对输入问题的特征进行编码，VQA 系统需要多项自然语言处理任务，例如标记化、词嵌入等。对输入的文本问题执行标记化操作并生成标记。然后将这些标记传递到词嵌入技术中。词嵌入将标记或单词或文本转换为数字形式。

有多种词嵌入技术，例如 CBOW（Continuous bag of Word）、Skip-gram 模型、GloVe 等。然后在每个实数值向量被传递到 LSTM 网络并生成问题编码向量之后。生成的图像特征矩阵和问题编码向量通过连接、乘法、加法等不同操作之一相互组合。

2.2 VQA模型

视觉问答能够通过不同的 VQA 方法回答自由形式的开放式问题。 VQA 方法分为四种模型，如图 3 所示。

2.2.1 Joint Embedding Model

H. 高等人提出了用于实现 VQA 的联合嵌入模型。在这个模型中，图像和文本问题作为输入。

然后通过不同的深度学习和NLP技术提取残像和文本问题特征。在获得这两个特征之后，这两个特征向量被联合嵌入到公共特征空间中。

然后将这个组合的特征向量输入分类器。最后分类器预测给定问题的答案。

该模型的主要部分是它关注图像的全局特征。

该模型的示例如图 4 所示。与图像相关的问题如“背景是什么？” 图 4 图像包含两个人的所有全局特征，山、棍子、滑板和所有其他小功能。 为了嵌入图像和文本问题，现在使用基于深度神经网络的机制。

2.2.2 Attention Mechanism

Z. 杨等提出了一种注意力机制，它是联合嵌入模型的扩展。在联合嵌入模型中，VQA 系统关注图像的所有全局特征，而不是仅关注图像的问题特定特征。

单独提取全局特征可能难以理解图像的问题特定语义信息。因此，联合嵌入模型的这种局限性正在通过注意力机制来解决。注意力模型将关注图像的特定区域而不是图像的所有全局特征。

图 5 是 VQA 系统回答“雨伞的颜色是什么？”的模型示例然后系统将关注图像的问题特定伞状区域而不是其他图像区域。

有很多不同的方法来应用注意力。将注意力应用于这种表示的一种方法是通过抑制或改进各个空间区域的特征。

利用具有这些局部图像特征的问题特征，例如仅伞状区域，可以计算出每个格子区域的权重因子，该权重因子决定空间区域对问题的重要性，然后可以将其用于处理注意力加权图像特征。

2.2.3 Compositional Model

R.胡等提出了组合模型。当问题需要多步推理才能正确回答时，此模型很有用。

该模型的视觉问题是“狗的左边是什么？” 然后这个模型首先找到狗，然后识别出狗剩下的物体。

已经为 VQA 提出了两个组合系统，它们试图在一系列子步骤中处理解决 VQA。 第一个框架是神经模块网络（NMN），第二个结构是循环应答单元（RAU）。

NMN 结构利用外部问题解析器来查找问题中的子任务，而 RAU 是端到端准备的，子任务可以隐式学习。

2.2.4 External Knowledge base Mechanism

Q.吴等提出外部知识库模式。当一些常识或附加背景知识类型的问题需要一些外部知识来源才能正确回答时，此模型很有用。

例如，像“这张图片中哪种交通方式比出租车便宜？”这样的问题可能需要一些外部知识来源来回答。

外部知识来源的一种方式是支持事实。支持事实就像“公共汽车比出租车便宜”。由于这些额外的知识来源，现在系统能够正确回答问题。有很多其他方法可以为系统提供外部知识源。

2.3 VQA技术

视觉问答中有许多不同的技术可用。这些所有技术都是基于 VQA 四种方法。在本节中，我们将讨论所有四种方法联合嵌入、基于注意力、组合、基于外部知识和基于混合模型的技术。

2.3.1 mQA Model based Technique

H.gao 等人。 [8] 论文提出了基于 mQA 模型的技术，该技术基于联合嵌入方法来回答与图像相关的问题。在这种技术中，答案将是单个单词、短语或句子。

该技术包含四个主要组成部分。

第一个组成部分是问题表示。为此，他们使用 LSTM 来提取问题的特征。
第二个组成部分是视觉表示。为此，他们使用 CNN 来提取视觉特征。该组件在 ImageNet 分类任务上进行了预训练。
最重要的是第三个组件，它是另一个 LSTM 组件。该组件的主要目的是生成句子形式的答案。这个 LSTM 组件将答案的当前词和之前的词编码为密集表示。
第四个组件是融合组件。该组件融合了前三个组件的信息来预测答案中的下一个单词。

mQA 模型在 Freestyle Multilingual ImageQuestion Answering (FM-IQA) 数据集上训练和评估。该数据集包含中文问答对及其英文翻译。该数据集具有动作、对象识别、对象之间的位置和交互、基于常识的识别和视觉内容类型的问题。

2.3.2 询问你的神经元技术

M. Malinowski 等人论文提出了基于联合嵌入的方法来实现视觉问答。他们评估了他们在** DAQUAR 和 VQA 数据集上的方法。他们使用深度学习方法CNN 对图像信息进行编码 **。编码后的图像信息和问题一起输入 LSTM 网络。 CNN 与 LSTM 的组合可以预测多个单词或单个单词的答案。

2.3.3 Stacked Attention Network (SAN) Technique堆叠注意力网络技术

Z. 杨等论文提出了基于注意力机制的 SAN 技术。该技术通过多个注意力层执行多步推理以实现视觉问答。

SAN 技术由三个主要部分组成。在所有三个组件中：

第一个组件是通过 VGGNet CNN 提取图像特征。
第二个组件是使用 CNN 或 LSTM 模型提取问题特征的问题模型。
第三个组成部分是堆叠注意力模型。该模型通过多个注意力层定位与问题相关的图像区域以进行答案预测。

最后结合最后一个注意力层和最后一个查询向量的图像特征来预测答案。该技术将预测单个单词的答案。

2.3.4 ABC-CNN Technique

K.陈等人论文提出了一种基于注意力的可配置卷积神经网络技术。该技术侧重于基于问题引导注意力的图像信息区域。

该技术包含四个主要组成部分。

第一个组成部分是图像特征提取部分。该组件使用 VGG-19 deepCNN 提取图像特征。
第二个组成部分是问题理解部分。该组件使用 LSTM 模型对问题特征进行编码。
第三部分是注意力提取部分。该组件设置了将问题特征与图像特征进行映射并生成问题引导注意力图的卷积核。
第四部分是答案生成部分。该组件使用基于问题引导注意力图的分类器并生成答案。答案将以单个单词生成。

2.3.5 Graph based Technique基于图形的技术

W. 布朗等人论文提出了一种基于图形的方法来实现视觉问答。该技术使用图学习器模块来制作与问题相关的输入图像的图。由于创建了问题特定图，现在系统能够回答高级推理类型的问题，例如语义和空间表示类型的问题。

该技术包含四个主要组成部分。

第一个组件是问题编码器，它通过词嵌入和递归神经网络嵌入问题。
第二个组件是对象检测器。该对象检测器对图像执行并获取图像的边界框坐标和特征向量。
第三个组成部分是图学习器模块，它结合了图像和问题特征向量，并生成图像对象和给定问题的邻接矩阵。
第四个组成部分是空间图卷积，它关注与问题相关的对象、对象关系。

最后执行最大池和元素乘积操作以获得与输入图像相关的输入问题的最终答案。

2.3.6 Ask Me Anything (AMA) Technique问我任何事 (AMA) 技术

吴等论文提出了 AMA 模型，该模型处理来自外部来源的基于一般知识的问题。他们将自动生成的图像描述与外部知识库相结合，以提供一般问题答案对的答案。

该模型包含两个主要组成部分。

第一个组件是提取、编码和合并。该组件的首要任务是通过 CNN 预测图像的属性集。基于属性的图像字幕模型生成一系列字幕。该组件的第二个任务是根据图像中检测到的前 5 个属性从 DBpedia 知识库中提取相关信息。然后通过 Doc2Vec 将该信息编码为固定长度的特征表示。
第二个组件是具有多个输入的 VQA 模型。在此组件中，编码属性、标题和 KB 信息被作为单一输入并输入 LSTM 以解释问题并生成答案。

2.3.7 FVQA: Fact based Technique基于事实的技术

P.王等人论文提出了基于事实的视觉问答任务。这种技术是处理常识和基本事实知识类型的推理问题。

在本文中，通过支持事实提供了明确的推理。为了添加带有问答对的支持事实，他们引入了名为 FVQA 数据集的新数据集。

支持事实与视觉概念相关联。 视觉概念分为三类：物体、场景和动作。

每个视觉概念的知识都是从 DBpedia、ConceptNet 和 WebChild 等知识库中提取的。

在构建知识库后，他们通过 RNN 或 LSTM 执行问题查询映射。

为了检索正确的支持事实，他们使用查询；这是在整个知识库上执行的。 ** LSTM 或 SVM 分类器**用于在查询返回的成对列表中选择最相关的支持事实。

2.3.8 End-to-End Module Network Technique端到端模块组网技术

R.胡等。 [12] 论文提出了一个没有解析器帮助的端到端模块网络。

该模型用于处理组合推理类型的视觉问答。为了解决组合推理问题，他们将问题分解为一组神经模块。

然后在使用** RNN 实施布局策略后预测每个问题的布局表达式 **。该表达式被传递给网络构建器，以动态预测问题的实例特定神经网络，并将其应用于输入图像以获得答案。

2.3.9 R-VQA Technique

P. Lu 等人论文提出了一种用于视觉问答的新型语义注意模型框架。框架对于学习视觉关系事实作为图像中的语义知识很有用。

他们构建了基于大规模视觉基因组数据集的 Relational-VQA (R-VQA) 数据集。 R-VQA 数据集中的每个数据实例由图像、问题、关系事实和答案组成。

该技术由三个主要部分组成。

第一个组件是上下文感知视觉注意模块。该组件用于提取图像特征表示。
第二个组件是事实感知语义注意模块。在这个模块中，第一个组件的输出被馈送到第二个组件以选择相关的关系事实。这些关系事实是由关系检测器根据图像和问题生成的。
第三个组成部分是联合知识嵌入学习。该组件同时合并最终的视觉和语义注意表示以学习视觉和语义知识。

3.VQA 技术的参数评估

本节显示了先前讨论的 VQA 技术的比较。表 1 显示了基于参数的 VQA 技术比较，如下所示。

VQA 模型参数指示该技术使用哪个模型来预测与图像相关的给定问题的答案。

Datasets 参数用于确定不同的 VQA 技术使用哪个数据集进行训练和评估。

问题类型参数表示该特定技术处理的问题类型。

关键特征参数表示技术的主要特征，

改进范围参数表示技术的改进或未来工作。

4.主要问题

视觉问答系统由于其广泛的应用范围和更广泛的研究领域，包含许多开放的研究问题。在研究了所有视觉问答方法和技术之后，我们已经确定了视觉问答中的某些问题。

A. 单词答案：最近的视觉问答系统以单词生成答案。 很少有 VQA 技术会生成多个单词的答案。然而，这几种技术并没有以句子形式或人类可理解的适当形式生成答案。下面显示了属于此问题的一些示例。

在下面的第一个例子中，一些奶牛是黑色的，一些奶牛是棕色的。然而，当前的 VQA 系统只生成“棕色”答案。正确的人类可以理解的答案就像“有些奶牛是棕色的，有些奶牛是黑色的”。

B. 时间特定的答案 ：最近的视觉问答技术能够回答图像特定的问题，如“现在几点了？”、“时钟显示几点？”以及更多时间特定的问题。下图显示了属于本期的一些示例。

**C. 数字特定视觉问题答案 **：最近的视觉问答技术能够回答图像特定的问题，比如“桌子的号码是多少？”、“公交车号码是多少？”以及更多数字特定的视觉问题 . 下面显示了属于本期的一些示例。

D.常识推理 ：现有的 VQA 系统无法处理所有类型的常识推理类型的问题，例如“这个孩子是男孩还是女孩？”，“男人的年龄是多少？

E. 处理有限数量的知识库推理类型问题：现有的 VQA 系统是在以外部资源或支持事实的形式提供给系统的附加和背景知识的帮助下处理知识库推理类型的问题。因此，他们只处理那些已提供背景信息的问题。

F. 不处理太小的物体检测和识别：现有的 VQA 系统能够回答物体检测并识别那些物体。然而当时的物体太小，现有系统无法检测和识别这些物体。

5.结论和未来的工作

在本文中，我们研究了视觉问答 (VQA) 方法及其用于实现 VQA 的不同技术。

VQA 中主要有四种方法可用。这四种方法是联合嵌入、基于注意力、组合和基于外部知识的方法。

我们详细研究了这四种方法及其技术。在研究这些所有技术时，我们发现了现有视觉问答系统中的几个问题。这些所有技术都基于计算机视觉和自然语言处理领域。这些所有技术都用于预测与图像相关的给定问题的答案。 VQA 技术在许多应用中都很有用，例如盲人或视障用户、与机器人交互、为美术馆的观众提供信息等等。

视觉问答系统的主要挑战是开发一种更有效的技术，该技术将以主观形式预测答案并处理时间特定的问题答案对。

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

文献阅读-VQAR-基于计算机视觉和自然语言处理的信息检索技术综述

VQAR: Review on Information Retrieval Techniques based on Computer Vision and Natural Language Processing

1. INTRODUCTION

2.RELATED WORK

2.1 VQA系统框架

2.2 VQA模型

2.2.1 Joint Embedding Model

2.2.2 Attention Mechanism

2.2.3 Compositional Model

2.2.4 External Knowledge base Mechanism

2.3 VQA技术

2.3.1 mQA Model based Technique

2.3.2 询问你的神经元技术

2.3.3 Stacked Attention Network (SAN) Technique堆叠注意力网络技术

2.3.4 ABC-CNN Technique

2.3.5 Graph based Technique基于图形的技术

2.3.6 Ask Me Anything (AMA) Technique问我任何事 (AMA) 技术

2.3.7 FVQA: Fact based Technique基于事实的技术

2.3.8 End-to-End Module Network Technique端到端模块组网技术

2.3.9 R-VQA Technique

3.VQA 技术的参数评估

4.主要问题

5.结论和未来的工作

你可能感兴趣的:(文献阅读,人工智能,计算机视觉)