正统之独孤求败

后ImageNet时代李飞飞视觉基因组重磅计划

后ImageNet时代李飞飞视觉基因组重磅计划

来源：新智元　作者：　发布时间： 2016年03月23日　浏览量： 2295

【新智元导读】ImageNet已经成为全球最大的图像识别数据库，每年一度的比赛也牵动着各大巨头公司的心弦，如今图像识别已经能做到很高的水准。下一步是图像理解，ImageNet创始人李飞飞开启了VisualGenome（视觉基因组）计划，要把语义和图像结合起来，推动人工智能的进一步发展。近日VisualGenome 论文发布，李飞飞要给我们带来怎样的惊喜？

几年前，机器学习的技术突破，让计算机学会了识别照片中的物体，而且非常准确。

现在的问题是，计算机能否带来另一个飞跃：学会理解相片中究竟发生着什么事。

一个叫VisualGenome的图像数据库，可能会推动计算机实现这个目标。它由斯坦福计算机视觉教授、人工智能实验室主任李飞飞和几个同事开发，我们知道李飞飞教授过去创建了ImageNet，而VisualGenome 是后ImageNet时代计算机视觉在理解图片上的训练和测试数据集。

在VisualGenome 的官方网站上，把它定义为：

VisualGenome 是一个数据集，知识库，不断努力把结构化的图像概念和语言连接起来。

网站：https://visualgenome.org

目前包含：

108249张图片

420万对区域的描述（RegionDescriptions）

170万视觉问答（VisualQuestion Answers）

210万对象案例（ObjectInstances）

180万属性（Attributes）

180万关系（Relationships）

所有的东西都映射到WordnetSynsets

教会计算机解析视觉图像是人工智能非常重要的任务，这不久能带来更多有用的视觉算法，而且也能训练计算机更为高效的沟通。毕竟，在表达真实世界的时候，语言总是受到很大的限制。

“我们专注在计算机视觉领域的一些最艰难的问题，给感知和认知建立一个桥梁，”李飞飞说：“不仅仅是处理像素的数据、知道它的颜色、阴影等事情，而且要把它们转变成3D形式以进行更全面的理解，带来语义视觉的世界。”

ImageNet包含了超过100万张图片的数据集，里面的内容都有很好的标记。每年，ImageNet大规模视觉识别挑战赛都会测试计算机在自动识别图像内容的能力。VisualGenome 的图像要比ImageNet的图像标签更为丰富，包括名字、图片的不同细节，以及在对象和动作信息之间的关系。

VisualGenome 使用了众包的方式实现，由李飞飞一位同事MichaelBernstein 提出。

2017年计划使用VisualGenome 数据集推出ImageNet风格的挑战赛。（VisualGenome 挑战赛？）

论文全文

VisualGenome：ConnectingLanguage and Vision Using Crowdsourced Dense Image Annotations

视觉基因组：使用众包密集图像注释以联结语言和视觉

作者：RanjayKrishna · Yuke Zhu · Oliver Groth · Justin Johnson· Kenji Hata· Joshua Kravitz · Stephanie Chen · Yannis Kalantidis · Li-JiaLi · David A. Shamma · Michael S. Bernstein · Li Fei-Fei

摘要

尽管在感知的任务上（例如图像分类）计算机有很多进展，但是在认知的任务上（例如图像描述和问答），计算机表现的不怎么样。如果我们不仅仅诉求识别出图像，而要深究我们视觉世界的意义，那么认知是最核心的任务。被用于解决图片内容丰富的认知任务的模型，依然使用给感知任务设计的相同数据集来训练。要在认知任务中获得成功，模型需要理解对象和物体之间的交互和关系。当问道：“这个人正在骑着什么交通工具？”的时候，计算机需要识别出图片中的物体，以及里面的关系“骑行”（人、马车）和“拉车”（马、马车），这样才能正确回答“这个人正坐着马车”。

在这篇论文中，我们介绍了VisualGenome数据集，以及使用这种关系进行建模。我们收集了对象、属性、图片里关系的密集注释，以学习这些模型。特别的，我们的数据集包括了超过10万张图片，每一张图片都包含了平均21个对象，18种属性和18种物体之间的关系。我们规范化了从对象、属性、关系、区域描述里的名词和短语和问答对到WordNet同义词集的关系。这些注释代表了图像描述、属性、关系和问答里最密集、规模最大的数据集。

关键词：ComputerVision · Dataset · Image · Scene Graph · Question Answering ·Objects · Attributes · Relationships · Knowledge · Language ·Crowdsourcing

1、介绍：

计算机视觉领域的圣杯，是完全理解图像里的场景：一个能够命名并且检测物体的模型，描述它们的属性，识别出它们的关系和交互。理解场景会带来重要的应用，例如图片搜索、问答、机器人交互等。为了实现这个目标，最近几年已经有了很多的进展，包括图片的分类任务和对象识别上。

图1：对数据的总体概述，需要从对感知图像到认知理解图像。我们呈现了一组图像数据集，其区域描述、对象、属性和关系都有密集的注释。区域描述（例如“女孩喂食大象”和“一个男人在女孩背后照相”）被表示在图的上部分。对象（象）、属性（大）和关系（喂食）表现在图的下部分。我们的数据集也包含了和问答相关的图片。

一个起作用的重要因素是大规模数据的可利用性，这驱动了统计模型，构成了今天我们计算视觉理解进展的基础。虽然这个进展很让人兴奋，但我们离理解图像的目标还有很远的距离。正如图1显示的，现在的模型能够探测出相片中的潜在物体，但没有能力解释它们之间的的交互和关系。这种解释性的行为倾向于自然界的认知，整合感知的信息得出关于图片物体之间关系的结论。对我们视觉世界的认知理解，因而需要我们在计算机识别物体的能力之外，补充描述物体和理解他们之间交互关系的能力。

在把下一代的数据集整合在一起，以服务于深度、认知图像理解任务的训练和基准测试，现在有越来越多的努力，其中最出名的是MS-COCO和VQA。MS-COCO数据集包含了从Flickr收集来的30万张真实世界的照片。每一张图片，都像素级别的分割成91种对象级别和5个独立的、用户生成的句子，以描述这个场景。VQA给相关图片的视觉内容增加了61.4万的问答对。在这些信息下，MS-COCO和VQA给致力于精准物体识别、分割、给图片总结性的文字和基础的问答任务的模型，提供了多产的训练和测试基础。例如，最前沿的模型提供了对MS-COCO图片（图1）的描述“两个人站在一只象旁边”。但是关于进一步理解各个对象在哪里，每个人在做什么，人和象的关系是什么，都丢失掉了。没有这样的关系，这个模型没法把它和其他人站在大象旁边的图片区分开来。

为了更彻底的理解图像，我们认为有三个关键元素需要添加到现在的数据集中：

1、将视觉概念落实到语义层面（agrounding of visual concepts to language）

2、基于多区域图片的更加完整描述和问答（morecomplete set of descriptions and QAs）

3、对图片各个组成的形式化表示（aformalized representation of the components of an image）

出于把视觉世界里面的完全信息映射出来，我们向大家介绍VisualGenome 数据集。VisualGenome 数据集的第一次发布使用了108249张图片，来自于YFCC100M和MS-COCO的交集。章节5对这个数据集有更详细的描述。我们会在下面强调，正是这三个关键因素的动机和贡献，让VisualGenome 和其他已有的数据集有很大的差异化。

除了传统的对对象进行关注外，VisualGenome数据集把关系和属性，作为注释里面的头等公民看待。对于完整理解一张图片而言，对关系和属性的识别是非常重要的部分，而在很多案例中，这些部分是讲述场景故事的关键（例如“一只狗追着人跑”和“一个人追着狗跑”的不同）。VisualGenome 是首个提供物体的交互和属性的详细标签，将视觉概念落实到语义层面的数据集。

通常来说，一张图片有丰富的场景，但很难用一个句子完全描述。图1包含了很多故事“一个男人正在给象拍照”，“一个女人正在喂食一头象”，“一条河背后葱葱郁郁的地面”等。现在的数据库例如Flickr30K 和MS-COCO专注于对图像进行高层次的描述。相对的，对于VisualGenome 数据集里的每一张图片，我们收集了图片中不同区域的 42种描述，提供了更加密集和完全的图像描述。另外，在VQA的激发下，我们也根据对每张图片的描述，平均收集了17种问答对。基于区域的问答可以被用于共同发展NLP和视觉模型，可以根据描述或图片，或者两者以回答问题。

通过一张图片的密集描述、视觉像素（对象的界限）和文字描述（关系，属性）的明确对应，VisualGenome 现在是第一个能够提供结构化的对图片进行形式化表示的数据集，在这种形式下能够大量用于NLP的基于知识的展示中。例如在图1，我们可以正式的表达出“举着”这个关系涉及到女人和食物。把所有的对象和他们在图片中的关系放在一起，我们可以把每幅图片看作是场景图。场景图展示被用于提升提高语义图片的检索和给图片加上说明。更进一步说，VisualGenome 里面每一张图片的所有对象、属性和关系，都会建立和Word-Net的规范化映射。这个映射联结了所有VisualGenome的图片，也提供了有效的方法对数据集里相同的概念（对象、属性或关系）有一致的提问。它也可能帮助训练模型，从多张图片的上下文信息中学习。

在这篇论文中，为了能够高效地展开模型的训练以及定立能够用于综合场景理解的下一代计算机模型基准，我们引进了Visual Genome数据集。这篇论文的安排如下：章节2，我们展现了关于数据集中各个组成部分的细节描述。章节3，展示了相关数据集以及相关识别任务的回顾。章节4，讨论了我们在持续努力收集这个数据集的过程中采用的众包策略。章节5，是对数据统计分析的收集，展示了VisualGenome 数据集的特性。最后同等重要的是，章节6展示了采用了VisualGenome 数据集作为基准进行实验研究的一组实验结果。

未来，基于VisualGenome 数据集的可视化模型、API、以及其它信息可以在线获取。

图2：来自Visual Genome数据集的一个样例图像。我们展示了3个区域描述以及它们相对应的区域图。我们也展示了通过结合所有的图像区域图收集到的连通图。顶部区域描述了一个男人和一个女人坐在公园里沿着河边放置的长椅上。它包括了这些对象：男人，女人，长椅以及河流。连接这些对象的关系有：坐在（sits_on）（男人，长椅），在...之前（in_front_of）（男人，河流），坐在（sits_on）（女人，长椅）。

图3：来自VisualGenome数据集的一个样图像以及它的场景图描述。包含图像中对象（孩子，老师，头盔等等）的场景图作为边界框（没有被展示出来）。这些对象也有一些属性：大，绿色，后面等等。最后，通过关系（如：戴（孩子，头盔），穿（指导者，夹克）等等）将对象之间相互连接起来。

图4：一个关于VisualGenome数据集的表述。每张图像包含多个描述图像局部的区域描述。我们收集了两种类型的问答组：自由形式的问答组和基于区域的问答组。每个区域分别被转换成基于对象的区域图表述、基于属性的区域图表述、以及基于成对关系的区域图表述。最后，连接这些区域图表述生成一个基于图像的所有对象的场景图表述。（最好浏览彩色版图像）。

2、VisualGenome 的数据表现

VisualGenome 数据集包括7个主要部分：区域描述、对象、属性、关系、区域图、场景图和问答对。图4展示了一幅画的每一个部分的例子。要对图像进行理解的研究，我们从收集描述和问答对开始。这些是原始的文本，没有任何长度和词汇的限制。下一步，我们从描述中提取对象、属性和关系。这些对象、属性和关系一起构造了我们的场景图，这代表了一般的图像。在这个章节中，我们分解了图像4，也对里面的7个部分分别进行了解释。在章节4中，我们会对此进行更详尽的描述，来自各个部分的数据，是如何通过众包平台收集的。

2.1多区域和对它们的描述

在真实世界中，一个简单的总结，往往不足以描述图片的所有内容和交互。相反，一个自然的扩展方法是，对图像的不同区域进行分别描述。在VisualGenome 中，我们收集了人们对图像不同区域的描述，每一个区域都由边框进行坐标限定。在图像5中，我们展示了按区域描述的3个案例。不同的区域之间被允许有高度的重复，而描述会有所不同。例如说，“黄色消防栓”和“穿短裤的姑娘正站在男人的背后”的重叠部分非常少，但“男人跳过消防栓”和其他两个区域有着很高的重叠。我们的数据对每一张图片平局有着42种区域描述。每一个描述都是一个短语包含着从1到16个字母长度，以描述这个区域。

2.2多个物体与它们的边框

在我们的数据集中，平均每张图片包含21个物体，每个物体周围有一个边框（见图6）。不仅如此，每个物体在WordNet中都有一个规范化的ID。比如，man和person会被映射到man.n.03|(thegeneric use of the word to refer to any humanbeing)。相似的，person被映射到person.n.01(a humanbeing)。随后，由于存在上位词man.n.03，这两个概念就可以加入person.n.01中了。这是一个重要的标准化步骤，以此避免同一个物体有多个名字（比如，man，person，human），也能在不同图片间实现信息互联。

图5：为了描述图片中所有的内容物和相互之间的关系，Visual Genome数据集中包括了数条人类标注的区域描述，每个区域周围都有一个边框。在这里，我们展示了3条区域描述：“man jumping over a fire hydrant”，“yellow fire hydrant”，以及“woman in shorts is standing behind the man”。

2.3一组属性

VisualGenome中，平均每张图片有16个属性。一个物体可以有0个或是更多的属性。属性可以是颜色（比如yellow），状态（比如standing），等等（见图7）。就像我们从区域描述中提取物体一样，我们也能提取出这些物体自身的属性。在图7中，从短语“yellowfire hydrant”里，我们提取到了“firehydrant”有“yellow”属性。和物体一样，我们也把属性在WordNet中规范化；比如，yellow被映射到yellow.s.01(of the color intermediate between green and orange in the colorspectrum; of something resembling the color of an egg yolk)。

2.4一组关系

“关系”将两个物体关联到一起，可以是动作（比如jumpingover），空间位置（比如isbehind），动词（比如wear），介词（比如with），比较词（比如tallerthan），或者是介词短语（比如driveon）。例如，从区域描述“manjumping over fire hydrant”中，我们提取到物体man和物体firehydrant之间的关系是jumpingover（见图8）。这些关系是从一个物体（也叫主体）指向另一个物体（也叫客体）的。在这个例子里，主体是man，他正在对客体firehydrant表现出jumpingover的关系。每个关系也在WordNet中有规范化的synsetID：jumping被映射到jump.a.1(move forward by leaps and bounds)。平均而言，我们数据集中的每张图片包含18个关系。

图6：从所有的区域描述中，我们提取了涉及到物体的描述。例如，从“man jumping over a fire hydrant”中，我们提取了“man”和“fire hydrant”。

图7：一些描述也提供了物体的属性信息。例如，区域描述“yellow fire hydrant”中意味着fire hydrant的颜色是yellow。在这里，我们展示了2种属性：yellow和standing。

图8：我们的数据集也捕捉了图片中物体与物体之间的关系和交互。在这个例子里，我们展示了发生在物体man和物体fire hydrant之间的jumping over关系。

2.5一组区域图

我们将从区域描述中提取的物体、属性、以及关系结合在一起，每42个区域创造一幅有向图表征。区域图的样子见图4。每幅区域图都是对于图片的一部分所做的结构化表征。区域图中的节点代表物体、属性、以及关系。物体与它们各自的属性相连，而关系则从一个物体指向另一个物体。图4中连接两个物体的箭头，从主体物体指向关系，再从关系指向其他物体。

2.6全景图

区域图是一张图片某一区域的表征，我们也将它们融合在一起成为一幅能表征整张图片的全景图。全景图是所有区域图的拼合，包括每个区域描述中所有的物体、属性、以及关系。通过这个方式，我们能够以更连贯的方式结合多个层次的全景信息。例如，在图4中，最左边的区域描述告诉我们“firehydrant is yellow”，而中间的区域描述告诉我们“manis jumping over the fire hydrant”。将它们拼合在一起以后，这两个描述告诉我们的是“manis jumping over a yellow fire hydrant”。

2.7一组问答

我们的数据集中，每张图片都有两类问答：基于整张图片的随意问答（freeformQAs），以及基于选定区域的区域问答（region-basedQAs）。我们为每张图片收集了6个不同类型的问题：what，where，how，when，who，以及why。在图4中，“问：女人站在什么的边上？；答：她的行李”就是一个随意问答。每张图片的问题都包含了这6个类型，每个类型至少有1个问题。区域问答是通过区域描述收集的。例如，我们通过“黄色消防栓”的描述收集到了这个区域问答：“问：消防栓是什么颜色的？；答：黄色”。区域问答让我们能够独立地研究如何优先运用NLP和视觉来回答问题。

3、众包策略

VisualGenome的数据收集和验证工作全部是由AmazonMechanical Turk的众包工人（crowdworkers）完成的。在这一节中，我们概括了一些创造数据集时运用到的途径。每个元素（区域描述、物体、属性、关系、区域图、全景图、问答）都包含了多个任务阶段。我们用了不同的策略来让保持数据的准确性和每个元素的多样性。我们也提供了这些帮助VisualGenome建立起来的众包工人的背景信息。

3.1验证

一旦标注完成，所有的VisualGenome数据都会进入一个验证阶段。这个阶段能够帮助消除被错误标记的物体、属性、以及关系。它也能够帮助移除一些可能正确却有些含糊（比如“这个人看上去在享受阳光”）、主观（比如“屋子看上去很脏”）、或是武断（比如“暴露在这种艳阳下可能会导致癌症”）的区域描述和问答。

验证是通过两种不同的策略实施的：多数人投票（majorityvoting）和快速判断（rapidjudgments）。数据集中除了物体之外的元素都是使用多数人投票的方式来验证的。多数人投票的方法是，由3个众包工人阅读每一条注释，随后判断注释是否在事实上是正确的（factuallycorrect）。只有当3人中至少2人认可后，这条注释才会被加入我们的数据集中。

我们只在物体的判别上使用快速判断来加快验证速度。快速判断用到一种受快速序列视觉加工（rapidserial visual processing）所启发而产生的交互界面，能够让对物体的验证在速度上比多数人投票有量级的提升。

3.2规则化

我们收集的所有描述和问答都是众包工人们写下的形式自由的文字。例如，我们并不强迫众包工人一定要将图片中的一个男性写作man。我们允许他们择取各种表达，比如person，boy，man，等等。这种模糊性使得我们难以从数据集中收集所有man的例子。为了减少这些概念的模糊性、并将我们的数据集与学术圈中使用的其他资源相联系，我们将所有的物体、属性、关系、以及区域描述和问答中名词短语都映射到了WordNet的同义词集合（synset）中。在刚才的例子里，person、boy、和man会被分别映射到以下同义词集合：person.n.01(a human being)，male_child.n.01(a youthful male person)，以及man.n.03(the generic use of the word to refer to any humanbeing)。由于WordNet具有的层级结构，我们可以将这三种表达都融入到同一个概念（person.n.01(a human being)）中——因为这是这几个同义词集合的最低层次公共祖先节点（lowestcommon ancestor node）。

我们使用StanfordNLP工具来从区域描述和问答中提取名词短语。接着，根据WordNet的词素计数（lexemecounts），我们将它们映射到WordNet中最频繁匹配（mostfrequentmatching）的同义词集合里。随后，我们为30中最常见的失败案例人工创造了映射规则，以此完善这种简单的映射逻辑。比如，根据WordNet的词素计数，table最常见的语义是table.n.01(a set of data arranged in rows andcolumns)。然而在我们的数据中，更有可能出现家具，因此映射应该倾向于table.n.02(a piece of furniture having a smooth flat top that is usuallysupported by one or more verticallegs)。全景图中的物体已经是名词短语了，也依据相同的方式映射到WordNet中。

我们基于形态学（morphology）对每一个属性都做了正态化，并将它们映射到WordNet中。我们另外加入了15个人工创造的规则来应对常见的失败案例。例如，同义词集合long.a.02(of relatively great or greater than average spatialextension)在WordNet中不如long.a.01(indicating a relatively great or greater than average duration oftime)常见，但是这个词在我们的图片中更有可能指的是前者。

对于关系，我们忽略了其中所有的介词，因为介词无法被WordNet识别。因为动词的意思在很大程度上依赖于它们的形态和在句子中的位置（例如，被动态、介词短语），我们尝试在WordNet中寻找语句框架与数据集中关系的语境相匹配的同义词集合。WordNet中的语句框架是一种形式化的语法框架，例如，play.v.01:participate in games or sport出现在“Somebody[play]s”和“Somebody[play]ssomething”。随后，对于每个动词-同义词集合的配对，我们使用这个同义词集合的根源上位词，以此降低WordNet细致的语义区分可能带来的噪音。WordNet的动词层级来自超过100个根源动词。例如，draw.v.01:cause to move by pulling可以追溯回根源上位词move.v.02:cause to move or shift into a new position，而draw.v.02:get or derive可以追溯回根源上位词get.v.01:come into the possession of something concrete orabstract。我们也人工添加了20条规则，用以应对常见失败案例。

这些映射并不是完美的，仍然含有一些模糊性。因此，我们将每个映射和它最有可能的4个候选同义词集合发送给AmazonMechanicalTurk，让众包工人们来验证我们的映射是否正确、是否有哪个候选同义词集合更合适。我们像众包工人们展示我们想要规范化的概念与我们提出的对应同义词集合，并给出另外4个候选同义词集合。为了防止众包工人们总是默认我们提出的同义词集合最合适，我们并不会直白地标示出5个同义词集合中哪个是我们提出的。5.8节列出了我们规范化策略的实验精确率（precision）和召回率（recall）。

4.未来应用

我们已经分析了这个数据集的各个组成部分，并且呈现了基于像是属性分类、关系分类、描述生成、回答问题等任务的基线实验结果。然而，我们的数据集能够用于更多的应用和实验任务中。在这个章节中，我们列举了一些未来可能会使用到我们数据集的一些潜在应用。

密集的图像注释。我们已经看到了许多关于图像注释的论文（如：Kiroset al.,2014,Mao et al.,2014,Karpathy and Fei-Fei,2014,Vinyals etal.,2014）。这些论文的大致思想都是尝试用一个图像注释来描述一整幅图像。然而，这些图像注释并没有详尽地描述图像中每一部分的场景。但是通过启用VisualGenome 数据集，能够使得这种应用获得一个自然的延伸。即是通过在VisualGenome 数据集上进行模型的训练，创造出描述图像中每部分场景的密集图像注释模型。

视觉问答。虽然视觉问答作为一个独立的任务被研究。（Yuet al.,2015,Ren et al.,2015a,Antol et al.,2015,Gao etal.,2015）,但是我们引进了一个将所有问题的答案说明和场景图片结合起来的数据集。未来工作可以创建一个用VisualGenome（视觉基因组）数据集的各个组件来解决视觉问答的监督模型。

图像理解。虽然我们已经看到图像注释（Kiroset al.,2014）和问答模型(Antoletal.,2015)的迅猛发展。但是基于此还有一些工作还有待完成。即是创建更多的综合评价指标来衡量这些模型的性能。这样的模型通常用BLEU，CIDEr,或者是METEOR和其它与这些指标相似的指标来进行模型性能的评估。但是这些指标不能很好地评估出这些模型在理解图像方面(Chenet al.,2015)的性能如何。VisualGenome数据集中的场景图片可以被用来作为在图像理解方面模型性能的一种评估方式。生成性的描述和答案可以通过与图像的地面真实场景图进行匹配来对其相应的模型进行评估。

关系提取。关系提取已经在信息检索和自然语言处理领域中被广泛地研究。（Zhouet al.,2007,GuoDong et al.,2005,Culotta and Sorensen,2004,Socheret al.,2012）.VisualGenome 数据集是第一个大规模的视觉关系数据集。这个数据集能够被用于图像视觉关系提取(Sadeghiet al.,2015)的研究中，并且对象之间的相互作用也能够被用于行为识别的研究（Yaoand Fei-Fei,2010,Ramanathan et al.,2015）以及对象之间的空间定位（Guptaet al.,2009,Prest et al.,2012）的研究中。

语义图像检索。之前的工作已经表明：场景图片能够被用来改善语义图像搜索性能（Johnsonet al.,2015,Schuster etal.,2015）。未来新的方法可以用我们的区域描述与区域图片相结合来进行探测。基于注意力（Attention-based）的搜索方法也能够通过由查询指定的并且也定位在检索到的图像中的感兴趣区域来进行探测。

5.结论

Visual Genome数据集提供了一个多层次的图片理解，基于此，也能基于多角度对一幅图像进行研究。从像素级信息（如对象），到要求进一步推导的关系模型，甚至到更深层次的认知任务（如视觉问答）。从模型的训练和定立下一代计算机视觉模型基准两方面来说，VisualGenome是一个全面的数据集，我们希望这些模型能够建立一个对我们视觉世界更广泛的理解。完善检测对象的计算机能力，并且这些被检测的对象要同时兼顾能够描述那些对象以及解释对象之间的相互作用和关系的能力。对于视觉理解和一个更加完整的描述集以及基于视觉概念到语言的视觉问答模型来说，Visual Genome 数据集是一个大型的形式化的知识表述。

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息