AI科技大本营

肖仰华谈知识图谱：知识将比数据更重要，得知识者得天下

CSDN 出品的《2018-2019 中国人工智能产业路线图》V2.0 版即将重磅面世！

V1.0 版发布以来，我们有幸得到了诸多读者朋友及行业专家的鼎力支持，在此表示由衷感谢。此次 V2.0 版路线图将进行新一轮大升级，内容包括 3 大 AI 前沿产业趋势分析，10 位 AI 特邀专家的深度技术分析，15 家一线互联网企业的 AI 实力大巡展，以及 20 个 AI 优秀应用案例，力求为读者呈现更全面的中国人工智能产业发展概况和趋势判断。

V2.0 版将于 11 月 8 日举办的 2018 AI 开发者大会上正式发布，在此之前，我们将不间断公布精要内容，以飨读者。此为 V2.0 版中深度技术分析系列稿件第 3 篇，作者为 CSDN 特邀 AI 专家——复旦大学教授肖仰华。

作者简介：肖仰华博士，复旦大学计算机科学与技术学院教授，博士生导师，知识工场实验室负责人。

一、什么是知识图谱

▌1.1 知识图谱的定义

知识图谱是什么？本质上是一种大规模语义网络。理解知识图谱的概念，有两个关键词。

首先是语义网络。语义网络表达了各种各样的实体、概念及其之间的各类语义关联。

图1. 知识图谱示例

比如“C罗”是一个实体，“金球奖”也是一个实体，他们俩之间有一个语义关系就是“获得奖项”。“运动员”、“足球运动员”都是概念，后者是前者的子类（对应于图中的subclassOf 关系）。

理解知识图谱的第二个关键词是“大规模”。语义网络并非新鲜事物，早在上个世纪七八十年代知识工程盛行之时，就已存在。相比较于那个时代的语义网络，知识图谱规模更大。

从2012年Google提出知识图谱直到今天，知识图谱技术发展迅速，知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下，在更多实际场合下，知识图谱是作为一种技术体系，指代大数据时代知识工程的一系列代表性技术进展的总和。去年我国学科目录做了调整，首次出现了知识图谱的学科方向，教育部对于知识图谱这一学科的定位是“大规模知识工程”，这一定位是十分准确且内涵丰富的。这里需要指出的是知识图谱技术的发展是个持续渐进的过程。从上个世纪七八十年代的知识工程兴盛开始，学术界和工业界推出了一系列知识库，直到2012年Google推出了面向互联网搜索的大规模的知识库，被称之为知识图谱。

▌1.2与传统知识表示的区别

理解今天的知识图谱内涵，是不能割裂其历史脐带的。上世纪七八十年代的各种知识表示与我们今天的知识图谱到底有着本质差别。传统语义网络与知识图谱的差别首先表现在其规模上。

知识图谱是一种大规模语义网络，与上世纪七八十年代的各类语义网络相比较，最显著的差异就是规模差异。推而广之，以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程一系列知识表示都是一种典型的“小知识”（smallknowledge）。

而到了大数据时代，受益于海量数据、强大计算能力以及群智计算，我们如今能够自动化构建、或者众包构建大规模、高质量知识库，形成所谓的“大知识”(bigknowledge，合肥工业大学的吴兴东教授在很多场合下也提到类似观点)。所以知识图谱与传统知识表示在浅层次上的区别，就是大知识与小知识的差别，是在规模上的显而易见的差别。

更深刻地进行分析就会发现，这样的一个知识规模上的量变带来了知识效用的质变。

知识工程到了上世纪八十年代之后就销声匿迹了。根本原因在于传统知识库构建主要依靠人工构建、代价高昂、规模有限。举个例子，我国的词林辞海是上万名专家花了10多年编撰而成的，但是它只有十几万词条。而现在任何一个互联网上的知识图谱，比如DBpedia，动辄包含上千万实体。人工构建的知识库虽然质量精良，但是规模有限。有限的规模使得传统知识表示难以适应互联网时代的大规模开放应用的需求。

互联网应用的特点在于：

一、规模巨大，我们永远不知道用户下一个搜索关键词是什么；
二、精度要求相对不高，搜索引擎从来不需要保证每个搜索的理解和检索都是正确的；
三、简单知识推理，大部分搜索理解与回答只需要实现简单的推理，比如搜索刘德华推荐歌曲，是因为知道刘德华是歌星，至于“姚明老婆的婆婆的儿子有多高”这类的复杂推理在实际应用中所占比率是不高的。

互联网上的这种大规模开放应用所需要的知识很容易突破传统专家系统由专家预设好的知识库的知识边界。这一定程度上回答了，为何谷歌在2012年这个时间节点推出知识图谱，利用一个全新名称以表达与传统知识表示毅然决裂的态度。

二、知识图谱的重要性

知识图谱是实现机器认知智能的基础。机器认知智能的两个核心能力：“理解”和“解释”，均与知识图谱有着密切关系。首先需要给机器“理解与解释”提出一种解释。我认为机器理解数据的本质是建立起从数据到知识库中的知识要素（包括实体、概念和关系）映射的一个过程。

比如如果我说到“2013年的金球奖得主C罗”这句话，我们之所以说自己理解了这句话，是因为我们把“C罗”这个词汇关联到我们脑子中的实体“C罗”，把“金球奖”这个词汇映射到我们脑中的实体“金球奖”，然后把“得主”一词映射到边“获得奖项”这个关系。我们可以仔细体会一下我们的文本理解过程，其本质是建立从数据（包括文本、图片、语音、视频等）到知识库中的实体、概念、属性映射的过程。

再来看人类是如何“解释”的。比如我问“C罗为什么那么牛？”，可以通过知识库中的“C罗获得奖项金球奖”以及“金球奖地位影响力最大的足球奖项之一”这两条关系来解释这一问题。

这一过程的本质就是将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱，机器完全可以重现我们的这种理解与解释过程。有过一定计算机研究基础的，是不难完成上述过程的数学建模的。知识图谱对于机器认知智能的重要性也体现在下面几个具体方面。

▌2.1 知识图谱使能机器语言认知

知识图谱对机器认知智能的必要性还可以从若干具体问题来进行阐述。首先，我们来看机器认知的核心能力之一：自然语言理解。

我的观点是机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的：自然语言有歧义性、多样性，语义理解有模糊性且依赖上下文。机器理解自然语言困难的根本原因在于，人类语言理解是建立在人类的认知能力基础之上的，人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。

我们人类彼此之间的语言理解就好比是根据冰山上浮出水面的一角来揣测冰山下的部分。我们之所以能够很自然地理解彼此的语言，是因为彼此共享类似的生活体验、类似的教育背景，从而有着类似的背景知识。冰山下庞大的背景知识使得我们可以彼此理解水面上有限的几个字符。我们可以做个简单的思想实验，假如现在有个外星人坐在这里听我讲报告，他能听懂么？我想还是很困难的，因为他没有在地球上生活的经历，没有与我相类似的教育背景，没有与我类似的背景知识库。

再举个很多人都有体会的例子，我们去参加国际会议时，经常遇到一个尴尬的局面，就是西方学者说的笑话，我们东方人很难产生共鸣。因为我们和他们的背景知识库不同，我们早餐吃烧饼、油条，西方吃咖啡、面包，不同的背景知识决定了我们对幽默有着不同的理解。所以语言理解需要背景知识，没有强大的背景知识支撑，是不可能理解语言的。要让机器理解我们人类的语言，机器必需共享与我们类似的背景知识。

实现机器自然语言理解所需要的背景知识是有着苛刻的条件的：规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。

以这四个条件去看知识表示就会发现，只有知识图谱是满足所有这些条件的：知识图谱规模巨大，动辄包含数十亿实体；关系多样，比如在线百科图谱DBpedia包含数千种常见语义关系；结构友好，通常表达为RDF三元组，这是一种对于机器而言能够有效处理的结构；质量也很精良，因为知识图谱可以充分利用大数据的多源特性进行交叉验证，也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。

▌2.3 知识图谱使能可解释人工智能

知识图谱对于认知智能的另一个重要意义在于：知识图谱让可解释人工智能成为可能。

“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人，人只能理解符号，没办法理解数值，所以一定要利用符号知识开展可解释人工智能的研究。可解释性是不能回避符号知识的。

我们先来看几个解释的具体例子。比如，我若问鲨鱼为什么可怕？你可能解释说：因为鲨鱼是食肉动物，这实质上是用概念在解释。若问鸟为什么能飞翔？你可能会解释因为它有翅膀。这是用属性在解释。若问鹿晗关晓彤前些日子为什么会刷屏？你可能会解释说因为关晓彤是鹿晗的女朋友。这是用关系在解释。我们人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象，解释事实。而对于机器而言，概念、属性和关系都表达在知识图谱里面。因此，解释离不开知识图谱。

▌2.4 知识引导将成为解决问题的主要方式

知识图谱的另一个重要作用体现在知识引导将成为解决问题的主要方式。前面已经多次提及用户对使用统计模型来解决问题的效果越来越不满意了，统计模型的效果已经接近“天花板”，要想突破这个“天花板”，需要知识引导。

举个例子，实体指代这样的文本处理难题，没有知识单纯依赖数据是难以取得理想效果的。比如“张三把李四打了，他进医院了”和“张三把李四打了，他进监狱了”，人类很容易确定这两个不同的“他”的分别指代。因为人类有知识，有关于打人这个场景的基本知识，知道打人的往往要进监狱，而被打的往往会进医院。但是当前机器缺乏这些知识，所以无法准确识别代词的准确指代。很多任务是纯粹的基于数据驱动的模型所解决不了的，知识在很多任务里不可或缺。比较务实的做法是将这两类方法深度融合。

▌2.5 知识将显著增加机器学习能力

知识对于认知智能又一个很重要的意义就是将显著增强机器学习的能力。

当前的机器学习是一种典型的“机械式”学习方式，与人类的学习方式相比显得比较笨拙。我们的孩童只需要父母告知一两次：这是猫，那是狗，就能有效识别或者区分猫狗。而机器却需要数以万计的样本才能习得猫狗的特征。

我们中国人学习英语，虽然也要若干年才能小有所成，但相机器对于语言的学习而言要高效的多。机器学习模型落地应用中的一个常见问题是与专家知识或判断不符合，这使我们很快陷入进退两难的境地：是相信学习模型还是果断弃之？机器学习与人类学习的根本差异可以归结为人是有知识的且能够有效利用知识的物种。

我相信，未来机器学习能力的显著增强也要走上充分利用知识的道路。符号知识对于机器学习模型的重要作用会受到越来越多的关注。这一趋势还可以从机器智能解决问题的两个基本模式方面加以论述。

机器智能的实现路径之一是习得数据中的统计模式，以解决一系列实际任务。另一种是专家系统，专家将知识赋予机器构建专家系统，让机器利用专家知识解决实际问题。如今，这两种方法有合流的趋势，无论是专家知识还是通过学习模型习得的知识，都将显式地表达并且沉淀到知识库中。再利用知识增强的机器学习模型解决实际问题。这种知识增强下的学习模型，可以显著降低机器学习模型对于大样本的依赖，提高学习的经济性；提高机器学习模型对先验知识的利用率；提升机器学习模型的决策结果与先验知识的一致性。

因此，知识将成为比数据更为重要的资产。前几年大数据时代到来的时候，大家都说“得数据者得天下”。去年，微软的沈向洋博士曾经说过“懂语言者得天下”。而我曾经论述过，机器要懂语言，背景知识不可或缺。因此，在这个意义下，将是“得知识者得天下”。如果说数据是石油，那么知识就好比是石油的萃取物。如果我们只满足卖数据盈利，那就好比是直接输出石油在盈利。但是石油的真正价值蕴含于其深加工的萃取物中。石油萃取的过程与知识加工的过程也极为相像。都有着复杂流程，都是大规模系统工程。知识工程的鼻祖，费根鲍姆曾经说过的一句话“knowledge is the power inAI”。

三、知识图谱的生命周期

图2. 知识图谱的生命周期

知识图谱系统的生命周期包含四个重要环节：知识表示、知识获取、知识管理与知识应用。这四个环节循环迭代。

知识应用环节明确应用场景，明确知识的应用方式。

知识表示定义了领域的基本认知框架，明确领域有哪些基本的概念，概念之间有哪些基本的语义关联。比如企业家与企业之间的关系可以是创始人关系，这是认知企业领域的基本知识。知识表示只提供机器认知的基本骨架，还要通过知识获取环节来充实大量知识实例。比如乔布斯是个企业家，苹果公司是家企业，乔布斯与苹果公司就是“企业家-创始人-企业”这个关系的一个具体实例。

知识实例获取完成之后，就是知识管理。这个环节将知识加以存储与索引，并为上层应用提供高效的检索与查询方式，实现高效的知识访问。

四个环节环环相扣，彼此构成相邻环节的输入与输出。在知识的具体应用过程中，会不断得到用户的反馈，这些反馈会对知识表示、获取与管理提出新的要求，因此整个生命周期会不断迭代持续演进下去。

▌3.1 知识表示

在知识表示方面，常用三元组（主语、谓词、宾语）表示知识图谱。如三元组<七里香，歌曲原唱，周杰伦>表示“七里香这首歌曲的原唱是周杰伦”这一知识。需要强调一点，知识图谱只能表达一些简单的关联事实，但很多领域应用的需求已经远远超出了三元组所能表达的简单关联事实，实际应用日益对于利用更加多元的知识表示丰富和增强知识图谱的语义表达能力提出了需求。

这一趋势首先体现在对于时间和空间语义的拓展与表达方面。

有很多知识和事实是有时间和空间条件的，比如说“美国总统是特朗普”这个事实的成立是有时间条件的，十年前美国的总统不是特朗普，十年之后应该也不大可能是特朗普。还有很多事实是有空间条件的，比如“早餐是烧饼与油条”这件事，在中国是这样，但是在西方并非如此，西方的早餐可能是咖啡、面包。

从时空维度拓展知识表示对很多特定领域具有较强的现实意义。比如在位置相关的应用中，如何将POI(Point of Interest)与该POI相关实体加以关联，成为当下拓展POI语义表示的重要任务之一。比如将“邯郸路220号”（复旦大学地址）关联到“复旦大学”是十分有意义的。在互联网娱乐领域，粉丝们往往不仅仅关心某个明星的妻子是谁，可能更关心明星的前任妻子、前任女友等信息，这些应用都对事实成立的时间提出了需求。

第二、增强知识图谱的跨媒体语义表示。

当前的知识图谱主要以文本为主，但是实际应用需要有关某个实体的各种媒体表示方式，包括声音、图片、视频等等。比如对于实体“Tesla Model S”，我们需要将其关联到相应图片和视频。知识图谱时空维度拓展在物理实现上可以通过定义四元组或者五元组加以实现。跨媒体表示可以通过定义相关的属性加以实现。知识图谱的语义增强总体上而言将是未来一段时间知识表示的重要任务。知识图谱作为语义网络，侧重于表达实体、概念之间的语义关联，还难以表达复杂因果关联与复杂决策过程。

如何利用传统知识表示增强知识图谱，或者说如何融合知识图谱与传统知识表示，更充分地满足实际应用需求，是知识图谱领域值得研究的问题之一。在一些实际应用中，研究人员已经开始尝试各种定制的知识表示，在知识图谱基础上适当扩展其他知识表示是一个值得尝试的思路。

▌3.2 知识获取

图3.知识获取的基本步骤

知识的获取是个系统工程，流程复杂，内涵丰富，涉及到知识表示、自然语言处理、数据库、数据挖掘、众包等一系列技术。知识获取的基本步骤如图3所示：

第一步是模式（Schema）设计。这一步是传统本体设计所要解决的问题。基本目标是把认知领域的基本框架赋予机器。在所谓认知基本框架中需要指定领域的基本概念，以及概念之间subclassof关系（比如足球领域需要建立“足球运动员”是“运动员”的子类）；需要明确领域的基本属性；明确属性的适用概念；明确属性值的类别或者范围。比如“效力球队”这个属性一般是定义在足球运动员这个概念上，其合理取值是一个球队。

此外，领域还有大量的约束或规则，比如对于属性是否可以取得多值的约束（比如“奖项”作为属性是可以取得多值的），再比如球队的“隶属球员”属性与球员的“效力球队”是一对互逆属性。这些元数据对于消除知识库不一致、提升知识库质量具有重要意义。

第二步是明确数据来源。在这一步要明确建立领域知识图谱的数据来源。可能来自互联网上的领域百科爬取，可能来自通用百科图谱的导出，可能来自内部业务数据的转换，可能来自外部业务系统的导入。应该尽量选择结构化程度相对较高、质量较好的数据源，以尽可能降低知识获取代价。

第三步是词汇挖掘。人们从事某个行业的知识的学习，都是从该行业的基本词汇开始的。在传统图书情报学领域，领域知识的积累往往是从叙词表的构建开始的。叙词表里涵盖的大都是领域的主题词，及这些词汇之间的基本语义关联。在这一步我们是要识别领域的高质量词汇、同义词、缩写词，以及领域的常见情感词。比如在政治领域，我们需要知道特朗普又被称为川普，其英文简称为Trump。

第四步是领域实体发现（或挖掘）。需要指出的是领域词汇只是识别出领域中的重要短语和词汇。但是这些短语未必是一个领域实体。从领域文本识别某个领域常见实体是理解领域文本和数据的关键一步。在实体识别后，还需对实体进行实体归类。能否把实体归到相应的类别（或者说将某个实体与领域类别或概念进行关联），是实体概念化的基本目标，是理解实体的关键步骤。比如将特朗普归类到政治人物、美国总统等类别，对于理解特朗普的含义具有重要意义。实体挖掘的另一个重要任务是实体链接，也就是将文本里的实体提及（Mention）链接到知识库中的相应实体。实体链接是拓展实体理解，丰富实体语义表示的关键步骤。

第五步是关系发现。关系发现，或者知识库中的关系实例填充，是整个领域知识图谱构建的重要步骤。关系发现根据不同的问题模型又可以分为关系分类、关系抽取和开放关系抽取等不同变种。关系分类旨在将给定的实体对分类到某个已知关系；关系抽取旨在从文本中抽取某个实体对的具体关系；开放关系抽取（OpenIE）从文本中抽取出实体对之间的关系描述。也可以综合使用这几种模型与方法，比如根据开放关系抽取得到的关系描述将实体对分类到知识库中的已知关系。

第六步是知识融合。因为知识抽取来源多样，不同的来源得到的知识不尽相同，这就对知识融合提出了需求。知识融合需要完成实体对齐、属性融合、值规范化。实体对齐是识别不同来源的同一实体。属性融合是识别同一属性的不同描述。不同来源的数据值通常有不同的格式、不同的单位或者不同的描述形式。比如日期有数十种表达方式，这些需要规范化到统一格式。

最后一步是质量控制。知识图谱的质量是构建的核心问题。知识图谱的质量可能存在几个基本问题：缺漏、错误、陈旧。

先谈知识库的缺漏问题。某种意义上，知识完备对于知识资源建设而言似乎是个伪命题，我们总能枚举出知识库中缺漏的知识。知识缺漏对于自动化方法构建的知识库而言尤为严重。但是即便如此，构建一个尽可能全的知识库仍是任何一个知识工程的首要目标。既然自动化构建无法做到完整，补全也就成为了提升知识库质量的重要手段。补全可以是基于预定义规则（比如一个人出生地是中国，我们可以推断其国籍也可能是中国），也可以从外部互联网文本数据进行补充（比如很多百科图谱没有鲁迅身高的信息，需要从互联网文本寻找答案进行补充）。

其次是纠错。自动化知识获取不可避免地会引入错误，这就需要纠错。根据规则进行纠错是基本手段，比如A的妻子是B，但B的老公是C，那么根据妻子和老公是互逆属性，我们知道这对事实可能有错。知识图谱的结构也可以提供一定的信息帮助推断错误关联。比如在由概念和实例构成的Taxonomy中，理想情况下应该是个有向无环图，如果其中存在环，那么有可能存在错误关联。

最后一个质量控制的重要问题是知识更新。更新是一个具有重大研究价值，却未得到充分研究的问题。很多领域都有一定的知识积累。但问题的关键在于这些知识无法实时更新。比如电商的商品知识图谱，往往内容陈旧，无法满足用户的实时消费需求（比如“战狼同款饰品”这类与热点电影相关的消费需求很难在现有知识库中涵盖）。

经历了上述步骤之后得到一个初步的知识图谱。在实际应用中会得到不少反馈，这些反馈作为输入进一步指导上述流程的完善，从而形成闭环。此外，除了上述自动化构建的闭环流程，还应充分考虑人工的干预。人工补充很多时候是行之有效的方法。比如一旦发现部分知识缺漏或陈旧，可以通过特定的知识编辑工具实现知识的添加、编辑和修改。也可以利用众包手段将很多知识获取任务分发下去。如何利用众包手段进行大规模知识获取，是个十分有意思的问题，涉及到知识贡献的激励机制，我前几年有个题为《未来人机区分》的报告，专门讨论如何利用知识问答形式的验证码来做知识获取，可以搜索此文获取更多信息。

▌3.3 知识管理

知识图谱的管理主要图谱的存储、检索等问题。通常这些问题的解决需要数据库系统的支撑，因而系统的选型也是知识图谱管理的一个重要问题。这里主要讨论能用于知识图谱管理的数据库系统选型以及知识图谱查询语言。知识图谱存储是个较为专业化的问题，此处不再深入讨论。

知识图谱管理系统的选型。知识图谱本质上在表达关联，天然地可以用图加以建模，因而很多人想到用图数据库对领域知识图谱加以存储。图数据库的确是知识图谱存储选型的重要选择，但是不是唯一选择。传统关系数据库，近几年充分发展的其他类型的NoSQL数据库在很多场景下也是合理选择。那么数据库的选择考虑的要素是什么呢？有两类重要的选型要素：图谱的规模以及操作复杂度。

从图谱的规模角度来看，百万、千万的节点和关系规模（以及以下规模）的图谱对于图数据库的需求并不强烈，图数据库的必要性在中等或者小规模知识图谱上体现并不充分。但是如果图谱规模在数亿节点规模以上，图数据库就十分必要了。

从操作复杂性来看，图谱上的操作越是复杂，图数据库的必要性越是明显。图谱上的全局计算（比如平均最短路径的计算），图谱上的复杂遍历，图谱上的复杂子图查询等等都涉及图上的多步遍历。图上的多步遍历操作如果是在关系数据库上实现需要多个联结（Join）操作。多个联结操作的优化一直以来是关系数据库的难题。图数据库系统实现时针对多步遍历做了大量优化，能够实现高效图遍历操作。

除了上述因素之外，还应该充分考虑系统的易用性、普及性与成熟度。总体而言图数据库还是发展中的技术，对于复杂图数据管理系统的优化也是只有少部分专业人员才能从事的工作。在数据库选型时需要充分考虑这些因素。我们实验室在实现CN-DBpedia（2000万实体、2.2亿关系）在线服务系统时先后采用了RelationalDB、Graph DB、MongoDB，最后出于综合考虑选用的是MongoDB，已经稳定运行了三年，累计提供10亿多次API服务。

知识图谱查询语言。通常对于表达为RDF形式的知识图谱，可以使用SPARQL查询语言。SPARQL语言针对RDF数据定义了大量的算子，对于推理操作有着很好支撑，因而能够适应领域中的复杂查询与复杂推理。从应用角度来看，也可以将知识图谱仅仅表达为无类型的三元组。对于这种轻量级的表示，关系数据库与传统NoSQL数据库也是较好选择。那么此时，SQL语句就是比较好的选择。SQL十分成熟，语法简单，用户众多且有着几十年的成功应用基础。

很多领域图谱上的查询是相对简单的，以单步或者两到三步遍历居多。此时，SQL完全能够胜任。但是不排除有一些特定场景，特别是公共安全、风控管理等领域，通常需要进行复杂关联分析，需要较长路径的遍历，需要开展复杂子图挖掘，此时SQL的表达能力就显得相对较弱了。

四、知识图谱的发展现状及应用

▌4.1知识图谱的应用

知识图谱的应用场景非常广泛，除了通用应用外，在金融、政府、医疗等领域也有特殊的应用。

图4. 知识图谱的应用

通用领域的应用主要包括精准分析、智能搜索、智能问答、智能推荐等。在精准分析方面，当认识到王宝强和宝宝是指同一个人后，就可以合并“王宝强离婚”和“宝宝离婚”两个事件，得到一个统一的热点分析。

在智能搜索方面，通过知识图谱建立起实体及其之间的关系，可提高搜索引擎的理解能力。例如建立代码知识图谱，自动理解代码的上下文信息，如建立起“quicksort”和“快速排序”、“QS”等的等价关系，以及“quick sort”是一种排序算法的isA关系等。这样一来，当用户搜索“排序算法”时，能把代码中包含“quick sort”、“快速排序”的内容都搜索出来。实现代码的精准、高效搜索。

在智能问答方面，系统降低了人机交互的门槛，非常适合成为互联网的新入口。相较于传统的用户输入问题，搜索引擎返回网页的方式，智能问答系统可以直接通往答案。例如复旦大学知识工场实验室推出的“不倒翁问答”，是一个基于知识图谱和互联网内容作为答案来源的问答系统，能回答各类事实型问题。系统接收自然语言问句作为输入，通过深度学习的方法，从知识图谱和互联网中找到相应的答案进行解答。支持单知识问题、是否问题、比较问题、枚举问题、常识问题以及多知识问题等。

在智能推荐方面，可基于知识图谱构建场景，提供基于场景的推荐。例如在电商领域，通过用户已购产品推断其购物场景，并推荐其他相关场景产品成为一个热门需求。

金融领域的应用主要包括风险控制和智能投顾等。在风险控制方面，通过构建工商知识图谱，可以将人、公司的信息用可视化的方式清晰的展示出来。一来可以用于人的特征的不一致性检测；二来可以进行异常节点分析，如正常借贷人只用一个手机号在一个金融产品中进行借贷，而异常借贷人会使用多个手机号在多个不同的金融产品中进行借贷；三来很多欺诈团伙组织会通过一系列的复杂操作来持有公司，利用知识图谱的可视化可以发现其中的潜在风险。

在智能投顾方面，通过对金融数据进行结构化提取和智能化分析，根据客户自身的理财需求，实现自动理财顾问。

政府领域的应用主要包括数据治理、司法智能辅助审判和智能情报研判等。在数据治理方面，可将所有政务公开数据进行融合，构建政务知识图谱，为用户提供统一的政务数据访问服务。

在司法智能辅助审判方面，通过建立司法知识图谱，建立了一套智能判案辅助机器人系统。为当事人提供专业的案件咨询，案件风险评估，法院服务和法律援助等。提高简单案件的审判效率，减少宝贵的司法资源的浪费。

在智能情报研判方面，主要对公安情报数据进行智能整合，将真实世界的海量异构碎片化数据等价转换为一张唯一的关系大网，与真实世界的人事地物组织对象一一对应，类似于“公安大脑”。构建完成后，每个民警都可以借助这个“公安大脑”来进行情报分析，准确做出判断。

医疗领域的主要应用包括智能辅助问诊和导诊和医药研发等。在智能辅助问诊和导诊方面，通过构建医疗知识图谱及相应的虚拟助手，实现对患者进行自动问诊并生成规范、详细的门诊电子病历。同时，根据患者的病历，自动对其进行导诊。

在医药研发方面，传统药物研发需要经历靶点筛选、药物挖掘、临床试验、药物优化等阶段，耗时十分巨大。通过从海量医学文献、论文、专利、临床试验信息等非结构化数据中抽取出可用的信息，构建生物知识图谱，可加快医药的研发速度。

五、知识图谱面临的挑战

知识图谱技术的挑战主要表现在知识表示、知识获取和知识应用等三个方面。

在知识表示层面，越来越多的领域应用不仅仅需要关联事实这种简单知识表示，还要表达包括逻辑规则、决策过程在内的复杂知识；需要同时表达静态知识和动态知识。单单知识图谱已经不足以解决领域的很多实际问题。如何去增强知识图谱的语义表达能力，如何综合使用多种知识表示来解决实际应用中的复杂问题是非常重要的研究课题。

在知识获取方面，领域知识图谱一般样本很小，如果需要构建抽取模型，那就需要基于小样本构建有效的模型。目前基于小样本的机器学习仍然面临巨大挑战。解决这一问题的思路之一就是利用知识引导机器学习模型的学习过程。具体实现手段已经有不少团队在开展相关的探索工作，比如利用知识增强样本、利用知识构建目标函数的正则项以及利用知识构建优化目标的约束等等。总体而言，这仍然是个开放问题需要巨大的研究投入。

在知识的深度应用方面。如何将领域知识图谱有效应用于各类应用场景，特别是推荐、搜索、问答之外的应用，包括解释、推理、决策等方面的应用仍然面临巨大挑战，仍然存在很多开放性问题。

六、知识图谱未来的发展趋势

从2012年发展至今，知识图谱技术发生了一系列的变革。从两个方面来讲，一方面是应用场景，另一个方面就是技术生态。随着应用场景和技术生态的变化，整个知识图谱面临着全新的挑战，以前的技术手段在应对现在智能化大潮给我们提出的挑战的时候，已经有些力不从心，所以我们要研发一些新技术。

从应用的角度来讲，知识图谱的应用趋势越来越从通用领域走向行业领域，现在的局面是通用与行业应用百花齐放，各行各业都在讨论适合自己的知识图谱。

今天展示给大家的是我们自己实验室的知识图谱，在通用领域，我们实验室有CN-DBpedia，Probaseplus。CN-DBpedia是一种通用百科知识图谱。通用知识库在通用人工智能中扮演着重要的角色，是未来竞争的战略制高点，即掌握了通用人工智能技术，可以从一个战略制高点向下俯冲，这样收获领域知识图谱的成果是相对容易的。但是如果只具备领域人工智能的能力，未必可以掌握通用人工智能能力。

虽然领域/行业人工智能技术更容易落地，但是从战略层面上来讲，一定要对通用人工智能予以高度的关注。领域人工智能在很多领域已经落地开花，但领域图谱的应用也不是简单的事，还具有很多挑战性的研究问题，领域知识库构建的语料往往比较稀疏，比如在某个领域提到某个事实，某类关系的样本非常少，这个时候利用关系去构建有效的抽取模型就会变的十分困难，在样本稀疏的环境下去做领域知识图谱的自动化构建仍然是件非常困难的事情。

第二个应用场景发生变化是从搜索延伸至推荐、问答等复杂任务。举个例子，用知识图谱帮助搜索代码，如果能利用知识图谱理解搜索意图，并返回准确的代码，这样效率将大有提升。用户搜索输入关键字，机器给出答案，还可以为用户做智能推荐。将来更智能的形式就是直接问答，我们实验室研发的“小Cui问答”就是这样的问答系统。整个知识图谱将来会在越来越复杂和多元的场景下发挥重要的作用。

再进一步就是交互方式发生变化。以前的交互方式更多是基于关键字，现在越来越多的是自然语言的处理，对话式的处理，像GoogleNow，Apple Siri，Amazon Alexa等等，很多大公司都在研发自然语言交互的产品，这意味着自然语言交互成为未来人机交互的主流方式。对知识图谱提出的挑战就是，对自然语言的认知到了一个新的高度，需要能够利用知识图谱帮助平台和系统更好地理解问答，上下文对话等等。

进而就是从用户提的问题来看，呈现出从简单的陈述类问题到解释类问题的变化趋势。以前用户喜欢问“what”、“who”、“when”、“where”这样简单陈述性问题，现在越来越多的问“why”、“how”。用户对系统智能性的期望越来越高，很多用户在Google上问why类问题，但是很遗憾，Google还不能进行回答，只能回答陈述类问题。随着“why”、“how”问题越来越多，解释就变的很重要，可解释是未来人工智能发展的核心诉求之一，是人机互信的前提。

再进一步就是，以前在实体之间找到一些简单关系就行了，比如王宝强的老婆是马蓉，但现在不满足于简单关系的揭示，而是希望能够推理出一些深层关系，比如王宝强离婚案，为什么王宝强会请张起淮当律师？王宝强和冯小刚是好朋友，冯小刚有个御用演员叫徐静蕾，张起淮是徐静蕾的法律顾问，所以王宝强会请张起淮当律师，这个就是深层关系推理。隐式关系发现、深层关系推理将成为智能的主要体现之一。

再从技术生态的角度来看，人工智能也发生了很大的变化。从机器学习来看，虽然深度学习发展非常迅速，并且在样本数据丰富的场景下取得了很好的效果，但是机器学习仍然存在很多问题，小样本学习、无监督学习手段有限，现有模型难以有效利用大量先验知识。再从自然语言处理角度来看，虽然自然语言处理在深度学习的推动下取得了很大的进展，但是自然语言处理离实际应用需求还很远，还只是在处理阶段，远远谈不上理解。从知识库本身来看，英文图谱积累迅速，发展得相当成熟，并且在很多应用中发挥了巨大的作用，但是其他语种的知识图谱十分缺乏。

虽然现在知识图谱很多，但是大部分都侧重在简单事实，对于常识的覆盖仍然十分有限。很多知识图谱都是依赖手工构建的，如何从大规模数据里用数据挖掘的方法自动挖掘出知识图谱的手段仍然缺乏。

总体而言，知识图谱技术的落地应用前景是光明的，但是也需要充分意识到知识图谱落地的巨大挑战。

2018 AI开发者大会

AI技术年度盛会即将开启！11月8-9日，来自Google、Amazon、微软、Facebook、LinkedIn、阿里巴巴、百度、腾讯、美团、京东、小米、字节跳动、滴滴、商汤、旷视、思必驰、第四范式、云知声等企业的技术大咖将带来工业界AI应用的最新思维。

如果你是某个AI技术领域的专业人才，或想寻求将AI技术整合至传统企业业务当中，扫码填写大会注册信息表，我们将从中挑选出20名相关性最高的幸运读者，送出单场分论坛入场券。大会嘉宾阵容和议题，请查看文末海报。

此外，如果你想与所有参会大牛充分交流沟通，点击阅读原文购票，使用优惠码：AI2018-DBY 购买两日通票，立减999元；此外大会还推出了1024定制票，主会+分会自由组合，精彩随心。

你可能感兴趣的:(AI)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python多线程程序设计之一 IT_Beijing_BIT #Python 程序设计语言 python
python多线程程序设计之一全局解释器锁线程APIsthreading.active_count()threading.current_thread()threading.excepthook(args,/)threading.get_native_id()threading.main_thread()threading.stack_size([size])线程对象成员函数构造器start/ru
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
C语言代码练习（第十九天）小小框架 C语言 C语言重点练习 c语言
今日练习：52、有一个已经排好序的数组，要求输入一个数后，按原来排序的规律将它插入数组中53、输出"魔方阵"。所谓魔方阵是指它的每一行，每一列和对角线之和均相等。54、找出一个二维数组中的鞍点，即该位置上的元素在该行上最大、在该列上最小。也可能没有鞍点。有一个已经排好序的数组，要求输入一个数后，按原来排序的规律将它插入数组中运行代码intmain(){intarr[11]={1,3,9,12,15
Linux查看服务器日志 TPBoreas 运维 linux 运维
一、tail这个是我最常用的一种查看方式用法如下：tail-n10test.log查询日志尾部最后10行的日志;tail-n+10test.log查询10行之后的所有日志;tail-fn10test.log循环实时查看最后1000行记录(最常用的)一般还会配合着grep用，(实时抓包)例如:tail-fn1000test.log|grep'关键字'（动态抓包）tail-fn1000test.log
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL