机器学习社区

如何让大模型自由使用外部知识与工具

本文将分享为什么以及如何使用外部的知识和工具来增强视觉或者语言模型。

全文目录：

1. 背景介绍

OREO-LM: 用知识图谱推理来增强语言模型
REVEAL: 用多个知识库检索来预训练视觉语言模型
AVIS: 让大模型用动态树决策来调用工具

技术交流群

建了技术交流群！想要进交流群的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

方式①、添加微信号：mlc2060，备注：技术交流
方式②、微信搜索公众号：机器学习社区，后台回复：技术交流

背景介绍

首先介绍示例“德州的 NBA 球队有哪些？他们分别在哪一年获得 NBA 总冠军？”对于这样的问题，ChatGPT 可以非常准确地回答。这个例子说明了类似 GPT 的模型，已经有非常强的世界知识记忆能力，并且存储在它们的参数当中，针对不同的问题，它能够准确地将其调用回答该问题。

“在2000年以后，有哪些球队没有获得过总冠军？”对于较难的问题，ChatGPT 还能够完成吗？实际上是不行的。类似的例子还有非常多。哪怕模型记住了某个知识，但并不能进行较为严格的逻辑推理。对于它不会的问题，它就不回答。这样的能力它们暂时还是缺失的。这隐含了包括大模型在内的很多神经基础模型（Neural Base Model）的一大缺陷，这是因为大部分的外部的知识都是通过类似 Continuous representation 的方式存储在模型的参数当中。因此，当处理逻辑推理或离散推理的场景时，通常来说，这些模型并不能很好地回答。

例如刚刚提到的需要一定的逻辑推理才能解决的问答系统，或者想构建一个寻路系统，比如在 UCLA 里，部署自动送外卖的工具。显而易见，如果想找到目标的位置，需要实现寻路的算法，像 DFS 找最优的路径。这个算法想用神经网络（Neural Network）完成，通常需要大量的数据。如果只采集某个特定领域（Domain），训练出来的模型，通常来说也只能够适用于该领域，而不能迁移泛化。

这一系列的问题激发了我个人博士生涯的工作，如何让传统的 Symbolic AI 工具被神经网络所使用。之前提到，需要进行快速和慢速思维（Fast and Slow Thinking），普遍的认知是神经网络可以快速推理，回答简单的问题，比如识别一个 Object，判断句子是正向还是负向。而对于相对较难的需要一定的思考才能解决的问题，比如围棋、寻路可能会需要一定的外部的工具或者知识才能解决。

如何将这两个模块进行交互并且合并。传统的方法都是基于解析（Parsing）的方法，也就是将自然语言的输入转化为程序，并能够被 Symbolic 模块执行。中间的程序通常需要大量的标注才能训练，我的研究方向更多的是能不能不构建所谓可微分的 Neural-Symbolic AI，还是以神经网络作为解决问题的模型。希望模型能自由地和外部的工具（logical、计算器或知识图谱）进行可微分的交互。过程当中，察觉到某个问题需要某种特定的工具，能够向对应的工具发送相应的请求，得到对应的回答。中间的交互过程能够尽可能地被可微分化，可计算梯度，输入和输出能够表示成嵌入（Embedding）的形式。这样，在给定一个数据集，甚至是无标注数据集上，能够将整个系统直接进行预训练，而不需要中间结果的标注，这是最终的愿景。显而易见，如果这样的系统能够实现的话，它能够直接训练于无标注的数据集，比如文本或结构化的数据。

今天报告主要展示三个工作，可能运用了不同水平的 Symbotic 模块。

第一个工作，尝试如何让语言模型调用知识图谱中的信息，并进行简单的推理。知识图谱是否能帮助模型解决复杂的问题。
第二个工作，尝试迁移到多模态。如果给定更多的数据集，比如视觉语言或网络数据，是否可以训练模型，使其根据不同的 Query自动地选取出更最相关的观点（Points）辅助式获取答案。
第三个工作，是否可以利用大语言模型动态的生成最适合解决某个问题的小程序。基于这个小程序调用不同的工具，解决需要上网搜寻或爬取信息的较难的问题。

OREO-LM: 用知识图谱推理来增强语言模型

1.为什么想使用知识图谱

介绍基于知识图谱增强语言模型（OREO-LM）。为什么想使用知识图谱呢？虽然知识库已经被研究了多年，但它也有一定的局限性，比如不完整，它包含的信息可能只有节点信息。但它也有显著的优势，比如使用一个很大的知识库或整个 Web 作为知识的来源。相对来说，知识图谱相比这类知识库较为轻量，它已经将世界的知识抽象成离散的，并且每个节点使用少量的信息，轻量并简单的知识表征形式。因此可以非常容易地将其和部署的大小模型存储在同一个地方，快速地调用并执行。由于它的离散形式、图结构，如果处理带有逻辑推理或多跳的问题，知识图谱可以非常容易处理该问题。例如“哪一位是图灵奖获得者，同时出生在加拿大”，可以在知识图谱上获得对应的结果。

推理过程可以抽象成简单的逻辑推理的表达式，之前已经有非常多的借助知识图谱或其他的知识库来增强语言模型的工作。一种非常简单的方式，比如给定知识图谱，可以预训练一个 KG 嵌入，知道每个实体的向量嵌入的表征，然后将该表征加到词嵌入。这种方法一定程度上将知识图谱里的某些信息让模型获得，显而易见，这种增强的方式并没有充分地利用图谱的推理及交互能力。模型并没有真正的在图谱上进行游走，找到二跳的路径，只是寄希望于向量嵌入能够记住相应的图里的所有的信息，显而易见，其是有缺陷的。

2.知识推理与语言模型结合

我们的工作当中希望模型能够更自由地和外部的知识图谱进行交互，并且尝试在图上进行游走与推理。实际过程当中，给定义预训练的语言模型，比如T-5将模型所有的参数冻结或微调。预训练的模型将它切成若干块（Block），比如说语言模型编码器（Language Model Encoder）切成3块。块与块之间，加入知识图谱交互层（Knowledge Graph Interaction Layer）也就是语言模型知识图谱的交互层。在每个交互层之中，提取出比较难，需要从知识图谱里面获得信息的 Query，将这些 Query 以嵌入形式发送给 KG，这样 KG 就能够根据 Query 进行游走，比如从 Germany 出发，走不同两条路径得到新的节点。然后将该信息通过嵌入形式传回语言模型，这样的交互可以重复多次，从而让模型处理需要多跳才能解决的问题。我们将交互层加在语言模型块中，所以将模型称之为 OREO-LM，交互像是奶油，模型就是饼干。

3.介绍语言模型是如何运作

我们的工作核心是在图上进行游走。很自然地在最开始的时，需要获得问题里最基础的图上的表征。首先使用已经预训练的实体链接（Entity Linking）模型，找出 Query 中有哪些基础的实体。有多少实体，图谱初始化多少个推理状态（Reasoning State），推理状态的初始化100%停留在最初始的实体上。

之后，需要让模型能在图谱上进行游走。在这篇工作当中，游走的表征就是将图谱的推理表征成有限状态机（Finite-State Machine），即每一个阶段维持新的实体分布，而每一次更新过程相当于在图谱上做一次实体分布的更新。

为了实现这一点，每一次更新过程之前知道下一步更新时往哪个方向走，即在当前情况下，下次游走的关系（Relation）是什么。在这份工作当中，把输入表示成分布。假设1000维度的概率分布，每个维度表示预测要使用该关系的概率。根据这关系分布游走，也就是重新估全图上每一条边的权重。比如开始有100%的概率在 Bohos 节点，而 Bohos 有三条出去的边（Influenced、Founded和is a），假设 Founded 有最高的概率，会将它赋予最高的概率的权重。在下次更新过程当中，会以更新过的图上的权重来做游走。那么更新之后最高概率的节点就变成了 Walter Gropius。整个过程可以被表示成一个简单的在图上的随机游走的形式，因此称该过程为情境化随机游走。这个步骤是完全可微分的，如果在数据集上训练，模型可以直接传递梯度到关系和实体的模块当中。在这个框架下如何获得关系？在传统的工作中，首先识别出问题中需要哪些最基础的关系，可以先通过解析方法把它转成一个程序，如果希望用神经网络的方法和 KG 进行结合的话，并不能预先获得该信息。

那么如何得到该信息？实现方式是在识别出的每个实体后，增加两个特殊 Token（RET、T-ENT）。这两个 Token 是语言模型和外部的知识图谱进行交互的条件。在若干个语言模型块之后，会将 RET 的嵌入输出，将它与预先得到的关系键存储器（实体嵌入，关系嵌入）进行相乘来得到预测的关系分布。所有的关系 REL 的输出和关系存储器都是可以被训练的，因此将模型预测出的关系输出发送给 KG，KG 进行一次的游走。在每次游走后，得到更新的实体分布，将这个信息传送给模型。一种非常简单的方式就是将它加权平均于一个实体存储模块（Entity Memory），每个实体还是表征实体嵌入。这种方式它非常简单粗暴，但有缺陷，尤其是表征有多个实体的集合。如果集合当中包含了两个离得特别远的实体，比如一个形容一个人、一个建筑，那么这两个的平均值并不一定是最合理的实体表征。在我另外的一篇工作基于快速逻辑的方法中，选用了 Fast set 表征 set 嵌入。在这工作里，为了简单实现，使用加权平均数。通过实体分布的加权平均，得到更新以后的实体嵌入，直接将这嵌入加在目标实体之后。通过这种模式，可以非常容易地将更新后的知识传输给模型，并且整个 Query 和检索结果的所有过程都是可被微分的。

这整个模块可以被重复多次。在第一次的 State transition (推理）之后，在经过若干个语言模型的内部的推理后，增加第二次交互层就可以实现多跳的推理。比如在第一跳的过程中得到 Walter Gropius，在第二跳知道 Walter Gropius 参与了哪些事件？发现预测和之前第一步的不同，第二次的最高关系变成 Participate，这样就可以得到最终的结果。

在整个过程中，语言模型和知识图谱并不是互相割裂的，两个模块是互相帮助彼此。语言模型能够帮助知识图谱更好地预测，在图谱上应该怎么样游走来预测最合理的关系。同理反之，知识图谱告诉语言模型解决这个问题需要哪些相应的知识。因此这两个模块可以有机的进行结合。

4.实验结果

实验选用 T5 作为基础的语言模型。在 T5 的基础之上增加 OREO-LM 块。尤其在 Multi-hop QA 上，这种增强模式有非常大的模型性能提升。

同时除了能够提升模型的性能以外，这种显式的知识图谱推理也能帮助更好地解释模型的决策。比如问“where was the Lisa kept during ww2”模型不止准确的回答“the Ingres Museum”，同时还能将模型预测的关系进行top1的选择，了解它们通过怎样的路径得到最后的结果。比如说 Lisa 的创始人在哪里，以及 war 2发生在哪里？通过这两条路径，能够更准确的得到最后答案，并且理解模型为什么会输出该答案。

在之前的实验结构里展示了 OREO-LM 能够提升模型的推理性能。但是，该性能提升是否真的来自于知识图谱的推理，为了验证这一点，做了一个蛮有意思的实验。首先，选择知识图谱上的非简单的 Triple。这些 Triple 只要能够找到对应的知识图谱上的一个实体（能非常容易获得回答）。但是，为了验证模型有一定的推理能力，不希望知识显式存在 KG 里面。我们将对应的某一种类型的知识全部从 KG 里删除。比如将所有包含 Capital Of 的边全部从 KG 里删除。如果模型还能回答对应的问题，边（Edge）是它已经记住的知识，或它必须从图谱上进行多跳的推理，或选择其他的知识和边来辅助回答模型预测出这一条不存在的边。

实验结果，如果增加多个推理模块，在删除知识的边之后，性能下降会越来越小。某种意义上，在显式的知识图谱上推理确实提升模型的鲁棒性，尤其是对于在知识图谱缺失了很多信息的情况下面，它还能通过多跳来辅助回答相应的问题。为了进一步验证这一点，我们将不同的删除掉的 Query，模型到底选择哪条多跳路径来展示成了一个树的形式。每条路径可以简单的理解为单一逻辑规则。比如想预测首都在哪里，模型的选择路径：先知道这个国家的总统在哪里，总统是谁，这位总统居住在哪里或者哪个地方工作，这条简单的路径可以用来辅助预测这个国家的首都是哪里。同样预测一个人的伴侣，他工作在哪里或他居住在哪里，或他使用怎样的语言，都可以通过其他的路径去预测。

实验和结果总结，如果想增强神经基础模型，仅使用最基础的 Symbolic Operator。在这份工作里，只是最基础的知识图谱游走，就已经取得很不错的性能，哪怕使用较小的模型参数，也能取得很好的性能。为了让整个框架能真正的 Work，最核心的一点是可以端到端训练，不需要中间的任何的标注，只在无标注得数据上就能学到如何真正的推理。如果想训练而不需要中间标注，让推理过程（尤其是 symbolic 推理）变得可微分是一个最关键的步骤。通过这种方式，模型可以直接在每个下游 QA 数据集做预训练或端到端训练，这是让模型能够真正 Work 的关键。

REVEAL: 用多个知识库检索来预训练视觉语言模型

以上工作可能局限于纯文本领域，并使用了知识图谱，我们知道非常多的知识源，比如网上的文本或知识库。在 REVEAL 介绍如何让视觉语言模型使用多知识源？比如“这个小玩具和哪一位美国总统有关联？”，从维基百科中获得美国的总统和泰迪熊的信息，找出相应的 Triple，甚至可以从 VQA 数据集里找到相关的问答对。统一将所有选取出来的相关的知识合并在一起。工作的目标是让模型能选取出来自不同知识源和问题相关的知识；使视觉语言模型具备更好地回答较难问题的能力，能端到端训练；只在一个数据集中学习检索怎样的信息，怎样将它们给合，并且回答相应的问题。

这类需要外部知识的问题，不仅在纯文本里很重要，在多模态中也重要。最近几年大家越来越关注外部支持的 VQA 答案，比如“在饭里哪部分拥有最多的碳水化合物？”。这样的问题，不仅需要模型能够理解图片里出现什么样的 Object 以及它们之间的关系，还需要一定的外部知识。比如，米饭是一种主食，而主食包含了最多的碳水化合物。我们的解决思路是让模型能够有能力和外部的知识库进行存储模块查找。将所有的外部知识统一编码在存储模块里，传送模型能够选取相应的 Token 和知识的结果。

为了实现这一点，需要将不同的 Multimodal 变成 Multi-Source 的 Multi-memory 编码到统一的存储模块里，它的键和值的表征需要完全一致。简单的做法是选用已训练好的视觉语言模型，比如 Multimodal 的基础模型，利用它将视觉语言的输入转化成序列 Token，并将其全都存储在大的存储模块里，动态地选取，显而易见是可行的。当文本非常长（图像本身包含非常多的信息），如果将它全部压缩在一个序列 Token 里面，可能会有几百甚至上千个 Token，每个 Token 是一个嵌入。如果存储在在线服务里，不太可能存储非常多的知识，最多存储几十万个，不能到几百万甚至上千万，更不用说上亿。

1. 多模式语料库中存储模块的构建

为了解决这一点，我们选用感知模型（Perceived Model），也就是基于 Transformer Decoder 的框架来压缩每个知识的实体。比如，原始有1000维度的输入序列，将它输入感知模型，该模型可以预先设定好最终保留几位的知识 Token，如果想保留16位，随机初始化16位的输入，将它作为 Decoder 的输入，压缩的信息作为 Decoder 的 Key 和 Value，然后将它压缩成16维的 knowledge value。

通过这种方式，可以将来自不同知识源的数据集里每个实体表示成一个 key-value 对。key 就是单一嵌入，而 value 是压缩后的16维或32维的 Tokens 列表。压缩后它大概只需要十几维的嵌入来表示的知识实体。这统一的存储模块（Unified Memory）可以存储百万甚至千万。如果实现云服务的话，可以实现接近上亿或者更多的数据集的增强。

2. 端到端训练检索模块和问答模

接下来，将展示如何去借助统一的存储模块来增强已有模型。首先，展示最基础的图像到文本的工作流程。给定图像和 Prompt，生成完整的说明文字，可以把它的前缀（prefix）也作为模型的输入，来补全剩下的信息。最简单的方式是用V-L编码器把它转换成 Tokens 列表，然后输给解码器自回归生成后面的信息。示例，描述图片里有什么东西，标准答案里包含菰属（Zizania 物种）。这类长尾的单词，对于较小的语言模型来说，比较难理解且记住。

如何使用外部的已有的统一的存储模块来补全信息？现在已有编码好的统一的存储模块且可以动态地去更新，因为每次 V-L 编码更新后，都会重新的更新 key 和 value。

在线上处理过程中，会根据已有输入作为 Query 嵌入来选取出和该 Query 最相关的若干个，比如 Top k 个知识实体，将它的 value 取出。在选取过程中，因为知识存储模块包含来自不同的数据集，而对于不同的 Query 最相关的知识实体的数据集可能各不相同。因此先通过语料库门控（Corpus Gating）选取出最相关的数据集，在该数据集中选取 k 个最相关的结果及对应的索引（Index），并选取出相应的 k 结果。

由于最大内积搜索算法（Maximum Inner Product Search）相应的实现，已经有非常多高效的 MIPS 的加速算法，比如基于哈希或基于聚类。这整个算法复杂度其实是 On 于存储的数量，是非常高效的。

在选取出 k 个结果后，将它和已有的输入进行融合。最简单的方法是，直接将每个知识实体拼接在已经编码好的语言输入之后。但是，如果希望模型能端到端的训练检索的话，它并不能够直接获得训练符。因此，我们实现了一个非常简单的技巧，在计算得到检索分数后，将分数承载在每个选取出来的知识实体之上，我们称之为 Attentive Knowledge Fusion。

实现如下，在计算每个 Query 和知识实体的注意力分数时，将这两个嵌入进行乘积，它表征了模型预测出每个知识实体有多相关于每个输入，如果想进一步优化这点，需要判断这个能力是不是真的对回答问题有用，那有什么信息能更好地辅助获得这个过程。隐式的过程是模型计算出来的注意力分数，即实体有多好的帮助模型回答相应的问题。为了使模型能够得到这过程，将计算出的检索分数乘在每次计算自注意力之前，归一化之后。假设有6层的注意力编码，会将信息承接6次，让它充分地获得相应的 supervision signal。

通过这种方式，如果在训练过程中知道某个知识实体非常有用，它对应的注意力分数需增加对应的比率得分，在下次更容易被检索。

我们在描述图片数据集上进行预训练，将预训练后所有的知识存储模块直接冻结，迁移到对应的 VQA 数据集，比如在 OK-VQA 上实现了非常好的结果。

3.实验结果

在文章中选用4个不同的数据集：WIT、CC12M、Wikidata、VQA-2。将这四个数据集编码在统一的存储模块中进行预训练，并在 REVEAL 里面实现非常好的结果。比如 PICa 和ReVIVE 都使用 GPT-3 的模型作为显式的知识库。值得一提的是，在我们的模型中只用了轻量级的 10B 存储在模型当中，不需要存储 350B 的大模型，已经能取得比大语言模型更高的结果。

这里展示模型预测的知识对。比如识别“飞机的航空公司是什么”，模型根据 LOGO 准确地识别出来“加拿大航空公司”，然后找到其相关的两个说明文字，并找出答案。

进一步，相对更难的例子，例如“这个巴士来自于哪个城市”，人比较难以回答。但通过模型可以找出和巴士非常相似的同款设计风格的来自于旧金山的公交系统。模型最后准确的回答它是来自于旧金山。同理，还能找出其他的需要一定的外部知识补全才能够回答的案例。

同样的，这个模型并不仅仅能处理 VQA 的任务，对于加说明文字的数据集也能取得非常好的结果。

除了取得更好的性能外，还希望检索方法有更好的适应能力。尤其基于 GPT 的模型，通常是收集2021年前获取的数据做预训练。但对于最近发生的新闻或信息，没有办法高效地更新。我们在实验中，测试它对没见过的知识，是否有很好的适应能力。因此在预训练和微调过程中删除一定比例的知识实体，比如随机的从知识代码里删除50%的信息，在预训练之后，仅在最后的推断阶段将该信息给补上。

测试发现，如果全部删除掉，它的性能下降非常大，上图蓝色线。但是补全后，结果和开始用100%的信息相差无几。这种结果某种意义上说明，即便在预训练和微调阶段并没有见过相应的知识，只要在最终推理阶段将知识进行补全，或有最新的知识加入到模型，其有能力去选取出相应的实体来回答问题。

总结，我们提出了 REVEAL，其包含了一个非常高效的知识检索，它可以使用不同的知识源，每个知识源来自于不同的方式，不同的表征。利用所有数据集来帮助回答相对较难的，需要一定知识的问题。我们通过一个非常简单，但有效的注意力融合的技巧，使 REVEAL 直接在大的语料库上预训练，而不需要中间的标注。

AVIS: 让大模型用动态树决策来调用工具

以上两份工作，选用的语言模型都是相对较小的 T5 基础模型。随着 OpenAI 发布了 GPT-4，很多的热潮慢慢迁移到我们能不能使用大语言模型解决各种各样的问题，大语言模型有它自己的缺陷，例如它并不能够很准确地回答逻辑推理的问题，有没有可能让自由地调用外部的工具和知识库来辅助它解决。通常来说，是不太能直接获得大语言模型中间表征的参数，因此在这个工作里我们并没有真正去实现可微分的训练。相应的我们更多的是使用基于 Prompt 的方法让语言模型学会调用相应的工具，和如何利用它解决较难的问题。

1.外部工具

比如尝试让基于 GPT 的模型或者其他的大语模型调用 Google 的搜索工具，包括文本搜索工具和视觉搜索工具 Lens，它能够识别图片里的 Object 和它相关的产品或描述。通过它的输出回答，不仅仅能给出最基础的回答，还能标注出每个回答来自于哪个知识源，帮助人类检验回答是否准确。

对于需要数学推理的问题，可以利用数学计算器，比如 Wolfram Alpha，是非常强大的科学计算器，可以辅助回答较难的需要一定的数学推理才能解决的问题。

2.外部工具增强的大语言模型

在我们工作之前，其实已经有非常多相应的工作，比如给定较难的问题，利用语言模型拆解成基础工具调用的程序，通常都是 plan-then-execute 的框架。先利用语言模型作为规划模块将复杂 Query 转化成小的程序。而每个程序就是调用哪个 API，获得怎样的结果，回答怎样的问题。最近效果非常好的例子是，Chameleon 接受不同的模态的问题，将它拆解成 API 列表。比如知识检索或程序生成器分别调用特定的外部 API 回答相应的子问题。

另一个受到关注的工作是来自于哥伦比亚大学的 ViperGPT 的工作，同样也是生成 Python 基础程序。比如回答“how many muffins can each kid have for it to be fair？”首先计算出图片里有多少松饼，有多少小孩，计算出数量后，确定是否整除，以回答对应的问题。

3. plan-then-execute 的框

这类工作，通常按照 plan-then-execute 的框架。先利用大语言模型的规划模块将问题拆解成子问题列表，而每个子问题可能对应一个 API，根据生成出来的程序分别去执行。当然每个执行过程也可以使用大语言模型。但该框架也存在问题。比如其默认问题本身已经包含足量的信息，这样它才能生成非常完整的程序。

NLP 领域里已经有人研究，如果问题不完整，包含了所谓的印象深刻的推理，比如问题“Did Aristotle use a laptop”，如果拆解成子问题的话，首先需要知道 Aristotle 出生的年份，以及这年份 laptop 是否被发明，最后计算两者的年月的顺序。中间潜在的推理并没有被显式地表征在问题里，需要在执行过程中隐式的地生成出来。就像下围棋，下第一步时并不知道100步后会怎么执行。这是第一个很大的问题。如果在最开始就生产出程序，便不能根据执行过程中的反馈来动态更新程序。第二个问题是，某时刻执行过程不确定。比如回答子问题“图片里面的汽车来自于哪个品牌？”回答该问题可以用不同的工具解决，比如简单的 VQA 或生成说明文字再维基搜索。实际上，我们并不知道最终是哪个工具准确地回答该问题。可能是 VQA，但其给出模棱两可的答案，并不能真正地满足要求，这时就切换到另一个工具。但如果事先已经存在固定的程序话，就不存在自由切换中间执行过程。

因此，在实行过程中希望能更自由、更动态地让模型做规划以及执行。我们实现了大致的框架如上图。两个模块，一个规划模块预测出每个阶段选用哪个 API，并且发送对应的 Query，根据这个信息选择并调用对应的 API，得到对应的结果。在该结果之后，判断该结果是否正确地回答相应的问题。如果没有，需要再次回到之前的结果。如果某条路径没有回答，需要回溯到之前的节点，再次进行规划；如果回答了子问题，需要进一步决策；如果已经回答了完整的问题，则提前结束搜索过程。

上图展示如何利用整个框架解决问题。比如“How many floors does this building have？”首先，模型先预测出图片里有哪个 Object，并进行选择。根据选择的 Object 做图像搜索，找出哪些图像和Object比较相似，而图像搜索的过程中得出其是 Bridgewater Place。在推理过程中获得其确实是答案，回答子问题。但还要回答它有多少层，这则需要一定的常识或领域知识，不是模型本身已存在的记忆。因此，需要借助网络搜索，比如 Google 或 Bing，回答对应的结果32。

类似的例子较多，每个例子每次中间结果生成的 API 都不一样。有时选择的路径无效，需要选择另外一个目标，我们的框架可以支持的动态选择。

追踪框架如何实行，包含以下几个模块。首先，获得基础的 M，最开始只保存输入数据，同时存储 State 在初始节点。在规划阶段，根据当前的 Memory 决定下一步选择怎样的 API 及其对应的 Query。执行结果输入给 Reasoner，其判断该结果是否有用。将这个信息加入到 Working Memory 后来判断 Reasoner 的结果是没用、有用还是已经回答问题。如果没用，回到第二个结果，并把 Working Memory 踢出，重新进行递归；如果包含有用的信息，更新当前的 State；如果已经回答了对应的问题则跳出。

这个框架的核心在规划模块，也就是每个阶段选用哪个 API，以及发送怎样的 Query。实现这点，可以使用 GPT 4 直接做 Zero Shot 的预测，或提供一定的上下文来进行预测。如果 API 的数量达到几百上千，那Prompt尤其是输入给模型的例子会非常大。现在大语言模型其实并不能接受非常长的文本输入。随着使用的API的数量增多，它并不一定能适应长的 Prompt。因此在这份工作里借助了人类知识，即人工标注者在 VQA 数据集上进行简单的标注，作为人类如何使用这些工具来回答相应的问题，在收集了几百个结果后，构建 Transition graph。人类在每个节点或当前情况下会选择使用哪些工具？一般情况下，不会直接进行网络搜索。因为，开始并不知道图像包含哪些信息。通常来说，最开始先用 Captioning 模型或 Object 选择模型找出最基础的信息。根据人工定义好的 Transition graph，根据当前的 State 确定下一步有哪些可操作的 Action state。这个 Action 的数量肯定会远远小于所有的 API 列表。比如全部有100个，下一步可能只需要10个。然后根据选用的10个和之前人工标注出的 Prompt 动态地生成出最适合当前的上下文 Prompt 输给模型。模型根据动态生成的 Prompt 预测下一步选用的 Action，以及它对应的输给 API 的 Query。

图中展示回答“when was the drum first used for this event？”首先，要了解鼓是什么，以及鼓发生在哪个年代才能回答这个问题。首先找出 object，输入给大语言模型来选择哪个 object 与这个问题最相关，可能会选择错误的object，比如选择第一个，输给 Reasoner 来判断它有没有回答这个问题。如果第一部分选择的信息没有鼓，模型则没有回答正确，那么需要进一步的选择（像搜索树一样直到回答问题）输给下一步规划阶段，该步知道是什么鼓和鼓的事件，通过 Google 搜索回答出对应的问题。

4.实验结果

实验含有最新的 Infoseek 数据集，这是比较难的需要关联信息才能回答的 VBQ 数据集。上图发现，之前非常强的 baseline，比如 PALI 哪怕是微调之后也只有16%。第一个 PALM 的模型也只有12.8% ，这样的结果基本属于没有完全的回答。但是在加了所有工具以及规划阶段框架后，能接近50%的准确率，已非常接近完成数据集一半的问题。在此对细节不做展示，包括 Prompt 如何去设计，如何进行用户实验，大家感兴趣的话可以仔细查阅论文。

最后进行一下总结，一共介绍了三个工作，一是如何利用知识图谱作为知识库，帮助语言模型进行较为复杂推理；二是如何使用更多的知识源帮助视觉语言模型，设置注意力和检索得分的融合，让模型能够直接进行训练；三是给定一个大语言模型，不做任何微调，如何设计一个框架，使其动态地生成最好的程序回答稍微复杂的问题。

你可能感兴趣的:(自然语言,人工智能,自然语言处理,计算机视觉,大模型,语言模型)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb