工赋开发者社区

工赋开发者社区 | 「新一代知识图谱关键技术」最新2022进展综述

近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等．然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化, 对新一代知识图谱在基础理论、体系架构、关键技术等方面提出新的需求,带来新的挑战．将综述国内外新一代知识图谱的关键技术研究发展现状,重点从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新与推理３方面对国内外研究的最新进展进行归纳、比较和分析．最后,就未来的技术挑战和研究方向进行展望。

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829

伴随着过去１０年浪潮,人工智能发展方兴未艾,正处于由感知智能到认知智能转变的关键时期．知识图谱作为大数据时代的知识工程集大成者,是符号主义与连接主义相结合的产物,是实现认知智能的基石．知识图谱以其强大的语义表达能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案．因此,新一代知识图谱的关键技术研究逐渐受到来自工业界和学术界的广泛关注．

知识图谱最早于２０１２年由 Google 正式提出[１],其初衷是为了改善搜索,提升用户搜索体验．知识图谱至今没有统一的定义,在维基百科中的定义为:“Google知识图谱(Googleknowledgegraph) 是 Google的一个知识库,其使用语义检索从多种来源收集信息,以提高 Google搜索的质量．”从当前知识图谱的发展看来,此定义显然是不够全面的,当前知识图谱的应用俨然远超其最初始的搜索场景,已经广泛应用于搜索、问答、推荐等场景中．比较普遍被接受的一种定义为“知识图谱本质上是一种语义网络(semanticnetwork),网络中的结点代表实体 (entity)或者概念(concept),边代表实体∕概念之间的各种语义关系”．一种更为宽泛的定义为“使用图 (graph)作为媒介来组织与利用不同类型的大规模数据,并表达明确的通用或领域知识”．从覆盖的领域来看,知识图谱可以分为通用知识图谱和行业知识图谱;前者面向开放领域,而后者则面向特定的行业．随着知识图谱在各行业的应用落地,知识图谱技术的相关研究得到了大量研究者的关注．以知识图谱为基础的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手、战场指挥系统等．

传统的知识图谱研究领域主要围绕传统的数据存储、知识获取、本体融合、逻辑推理以及知识图谱应用等方面．文献[２]详细综合和分析了知识图谱存储管理最新的研究进展．文献[３]从知识表示学习、知识获取与知识补全、时态知识图谱和知识图谱应用等方面进行了全面的综述．文献[４]则重点对面向知识图谱的知识推理相关研究进行了综述．

然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化,对新一代知识图谱在基础理论和关键技术等方面提出新的需求,也带来新的挑战．和已有的知识图谱研究综述相比,本文将从众多最新的知识图谱研究方法中,对３方面的新一代知识图谱关键技术和理论做分析:１)非结构化多模态数据组织与理解; ２)大规模动态图谱表示学习与预训练模型; ３)神经符号结合的知识更新与推理．本文将综述国内外新一代知识图谱关键技术研究发展现状,对国内外研究的最新进展进行归纳、比较和分析,就未来的技术挑战和研究方向进行展望．

1. 非结构化多模态数据组织与理解

1.1 非结构化多模态数据组织

“模态”的定义较多,可以直观地理解为不同类型的多媒体数据,也可以作为一个更加细粒度的概念,区分模态的关键点可以理解为数据是否具有异构性．例如,对于某个歌手,互联网上可以找到他的照片和歌曲视频,同时也有相关的文本信息(百科、新闻等)以及具体的歌曲音频．图片、视频、文本、语音这４种数据,可以被理解为该对象的多模态数据．目前主要的非结构化多模态知识图谱如表１所示:

DBpedia [５]作为近１０年来知识图谱研究领域的核心数据集,其丰富的语义信息中也包含了大量的非结构化数据,如文本描述和实体图片．目前 DBpedia包含了超过２６０万个实体,且每个实体具有唯一的全局标识符．以此为基础,越来越多的数据发布者将自己的数据通过 SameAs 关系链接到 DBpedia资源,使 DBpedia一定程度上成为多类型数据组织的中心．目前,围绕 DBpedia的互联网数据源网络提供了约４７亿条信息,涵盖地理信息、人、基因、药物、图书、科技出版社等多个领域．

Wikidata [６]中也存在大量的多模态数据资源, 它是维基媒体基金会(WikimediaFoundation)推出的知识图谱,也是维基媒体数据组织和管理的核心项目．Wikidata充分利用了知识图谱的图数据模型, 综合了 Wikivoyage,Wiktionary,Wikisource等各类结构化和非结构化数据,其目标是通过创造维基百科全球管理数据的新方法来克服多类数据的不一致性,已经成为维基媒体最活跃的项目之一,越来越多的网站都从 Wikidata获取内容以嵌入提供的页面浏览服务． IMGPedia [７]是多模态知识图谱的早期尝试．相较于 DBpedia和 Wikidata,其更关注在已有的知识图谱中补充非结构化的图片信息．

IMGPedia的核心思路是首先提取 WikimediaCommons中的多媒体资源(主要是图片),然后基于多媒体内容生成特征用于视觉相似性的计算,最后通过定义相似关系的方式将图片内容信息引入到知识图谱中,此外其还链接了 DBpedia和 DBpediaCommons来提供上下文和元数据．IMGPedia的优势在于开创性地定义了知识图谱中图像内容的“描述符”,也就是视觉实体属性(诸如灰度等),同时根据这些描述符去计算图片相似度,方便人们进行相似图片的查找．但 IMGPedia中定义的“描述符”种类较少,且图片之间的关系单一．

MMKG [８]项目旨在对不同知识图谱(Freebase, YAGO,DBpedia)的实体和图片资源进行对齐．其通过对３个知识图谱(Freebase１５k,YAGO１５k,DB１５k, 均为从原始的知识图谱中获得的知识图谱子集)进行实体对齐,以及数值、图片资源与实体的绑定,构建了一个包含３个知识图谱子集的多模态数据集合．MMKG 包含的３个知识图谱既有诸多对齐的实体,又有各自不同的拓扑结构．值得一提的是,MMKG 的目标并非是提供一个多模态知识图谱,而是定义一个包含多模态信息的评估知识图谱实体对齐技术的基准数据集．但是其本质上还是以传统的知识图谱为主,规模很小同时也没有充分收集和挖掘互联网上多种类型的多模态数据,在将图像分发给相关文本实体时也未曾考虑图像的多样性．

KgBench [９]和 MMKG 类似,在 RDF 编码的知识图谱上引入了一组新的实体分类基准多模态数据集．对于多个知识图谱基准实体分类任务,提供至少１０００个实例的测试和验证集,有些实例超过１００００个,每个实例包含了多种模态的数据描述和特征．每个任务都能够以知识图谱结构特征进行评估,或者使用多模态信息来实验．所有数据集都以 CSV 格式打包,并提供 RDF格式的源数据和源代码．东南大学的 Wang等人[１０]提出的多模态图谱 Richpedia,是目前国内在多模态知识图谱领域的代表工作．其核心思路延续了知识图谱的基本数据模型,在 RDF框架下对现有的知识图谱进行扩充(主要是包含视觉信息的图片实体),使其变为多模态知识图谱．相较之前的多模态知识图谱,该工作的最大贡献在于收集与实体相关图片的同时,利用图片的配文来识别图片中所包含的其他实体,进而在跨模态实体之间的语义关系发现方面取得了显著效果提升．

西安交通大学的郑庆华等人[１１Ｇ１２]提出了知识森林的概念,旨在针对智慧教育领域的多模态数据,实现基于知识森林数据模型的组织与个性化导学．知识森林的特点在于针对教育领域的垂域特点,用自然语言处理、图像识别等人工智能技术突破了教育领域给定课程科目的知识森林自动构建,研制了知识森林 AR 交互系统,缓解学习过程中人机可视化交互难题．知识森林的多模态类型不再局限于文本和图像的范畴,增加了与视频数据交互的能力．

百度知识图谱近年来也逐渐向多模态知识图谱演变．基于海量互联网资源,百度构建了超大规模的通用知识图谱,并随着文本、语音、视觉等智能技术的不断深入,以及行业智能化诉求的提升,百度近年来一直致力于知识图谱在复杂知识表示、多模态语义理解、行业图谱构建和应用,其挖掘的多模态知识在图文视频的基础上,加入了更多语音数据来丰富多模态知识图谱的内容．

1.2 多模态数据理解

多模态数据理解旨在实现处理和理解不同模态信息之间共同表达语义的能力．整体上,和知识图谱相关的多模态数据的理解主要分为基于本体的多模态语义理解和基于机器学习的多模态语义理解．基于本体的多模态语义理解是比较早期的工作,均和知识图谱相关,其主要活跃于深度学习的浪潮兴起之前,代表性的工作为 LSCOM(largeＧscaleconcept ontologyformultimedia)[１３]和COMM(coreontology formultimedia)[１４]． LSCOM [１３]是一个由 IBM、卡内基梅隆大学 (CarnegieMellonUniversity,CMU)和哥伦比亚大学领导开发的多模态大规模概念本体协作编辑任务．在这项工作中,CyC公司与很多学术研究和工业团体均有参与．其整个过程包含了一系列学术研讨会,来自多个领域的专家聚集在一起,创建了描述广播新闻视频的１０００个概念的分类．LSCOM 中对多模态数据的实用性、覆盖率、可行性和可观察性制定了多个标准．除了对１０００个概念进行分类外, LSCOM 还生成了一组用例和查询,以及广播新闻视频的大型注释数据集． COMM [１４]是由德国、荷兰以及葡萄牙的研究团队联合推出的多模态本体,其诞生的主要动机在于 LSCOM 为多模态数据语义分析研究创建了一个统一的框架,但并没有一个高质量的多模态本体正式描述,也缺乏与已有的语义 Web技术兼容．针对此问题,COMM 定义了一个基于 MPEGＧ７的多模态本体,由多模态数据模式组成,满足了本体框架的基本要求,并且在 OWLDL 中完全形式化．基于本体的多模态语义理解要求高质量的本体编辑以及精细粒度的数据描述,因此 COMM 和 LSCOM 并没有很好地发展起来．

基于机器学习的多模态语义理解[１５]是目前多模态数据理解的主流方法,和知识图谱的联系主要是利用多模态表示学习方法实现知识补全或应用到下游任务中．多模态表示学习是指通过利用不同多模态数据之间的互补性,剔除模态冗余性,从而将多模态数据的语义表征为实值向量,该实值向量蕴含了不同模态数据的共同语义和各自特有的特征,如图１所示．代表性的工作如 Srivastava等人[１６]通过深度玻尔兹曼机实现图像和文本的联合空间生成, 在此基础上实现多模态数据的统一表示．

多模态知识图谱表示学习的代表性工作是 MoussellyＧSergieh等人[１７]将视觉特征、文本特征和知识图谱的结构特征共同学习成统一的知识嵌入, 在此过程中使用 SimpleConcatenation,DeViSE,Imagined这３种不同的方法来集成多模态信息,最终实现了知识图谱的多模态表示学习,生成了蕴含多种模态特征的知识图谱实体和关系实值向量,相较于传统的基于结构的知识图谱表示学习,其在链接预测和实体分类任务上的效果均有提升．

GAIA [１８]是最近提出的一个细粒度的多模态知识抽取、理解和组织框架,旨在提取不同来源的异构多媒体数据(包括多模态、多语言等),生成连续的结构化知识,同时提供一个丰富的细粒度的多模态数据描述本体．GAIA 整个系统主要有３个优势:１)大量使用计算机视觉和自然语言处理的深度学习框架和其他知识图谱算法作为其底层模块,通过结合不同领域的技术实现了特别是对于图片资源的实体识别和多模态实体链接,相较于之前的IMGPedia,这样的处理保证了对图片内容细粒度识别的进一步深入,而对于文本资源,也实现了实体识别和关系抽取．２)相较于粗粒度的实体,细粒度可以保证内容查询的灵活性和更强的易用性,例如对场景的理解和事件预测,故可以更广泛地用于实际应用中．３)通过将图片和文本实体进行实体链接、关系抽取等处理, 实现了多模态知识融合和知识推理,充分利用了多模态的优势．GAIA 所提出的多模态知识图谱提取框架是当前比较全面的一种范式,有着较好的借鉴意义．

北京大学的 Peng等人[１９]提出了跨媒体智能的概念,该概念和多模态数据理解的思路类似,其借鉴人脑跨越视觉、听觉、语言等不同感官信息认知外部世界的特性,重点研究了跨媒体分析推理技术中的任务和目标,包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等．其代表性的工作为 PKU FGＧXmedia [２０],是第１个包含４种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索公开数据集和评测基准,并且在此基础上提出了能够同时学习４种媒体统一表征的深度网络模型 FGCrossNet．

中国科学院自动化研究所的张莹莹等人[２１]提出了一个基于多模态知识感知注意力机制的问答模型．该模型首先学习知识图谱中实体的多模态表示; 然后从多模态知识图谱中与问答对相关联的实体的路径来推测出回答该问题时的逻辑,并刻画问答对之间的交互关系．此外,该模型还提出了一种注意力机制来判别连接问答对的不同路径之间的重要性．

清华大学的 Liu等人[２２]最早在多模态知识图谱表示学习方面开展了研究,代表性的工作是IKRL, 其将视觉特征和知识图谱的结构特征进行联合表示学习,进而通过不同模态信息之间的约束生成质量更高的知识图谱嵌入．华南理工大学的 Cai等人[２３]提出一种结合图像信息和文本信息的神经网络来对 Twitter等短文本中的实体进行识别和消歧．其核心思想是将视觉和文本信息通过表示学习生成的嵌入连接起来,并且为细粒度的信息交互引入了共同关注机制．在 Twitter数据集上的实验结果表明,其方法优于单纯依赖文本信息的方法．中国科学技术大学的 Xu等人[２４]在多模态信息理解与关联方面探索了如何有效联合映射与建模跨模态信息,进而从视频概括性描述深入至实体间语义关系,实现视觉元素多层次、多维度语义理解与关联,以形成对视频等多模态内容更为全面的解析,有效解读其中的语义信息,进而为支撑面向多模态内容的智能应用服务奠定重要基础．其代表性的工作为 MMEA [２４],针对多模态知识图谱的实体对齐问题,设计了一种多视图知识嵌入方法,实现多模态知识图谱实体对齐效果的提升．

国防科技大学的 Zhao等人[２５]在多模态知识图谱的实体对齐任务上进一步进行了探索,其主要将多模态实体对齐任务从欧氏空间拓展到了双曲空间进行建模表示,最终利用双曲空间内的图卷积网络和视觉特征抽取模型 DENSENET 实现了多个数据集上的实体对齐效果．

２大规模动态图谱表示学习与预训练模型

2.1 大规模动态表示学习

知识图谱的本质是一种语义网络,亦是一种特殊的图．动态知识图谱同样是一种特殊的动态图．但是因为知识图谱的特殊性,动态知识图谱可以被分为２类:一类是时序动态知识图谱,其中蕴含着时间特征,知识图谱的结构、实体和关系都会随着时间的推移发生改变;另一类是非时序动态知识图谱,这类知识图谱中没有显式的时间特征,但是知识图谱会发生更新,有新的实体和关系添加到原有的知识图谱中．一般情况来说,已存在知识图谱中的实体和关系不会发生改变．

１)时序的动态知识图谱表示学习

时序知识图谱是一种特殊的知识图谱,其相比传统的静态知识图谱多了时间信息,知识图谱中的知识不是静态不变的,反而是因为时间的变化,知识三元组发生改变．如表２中所总结,我们根据其对时间信息处理方式的差异将所有算法模型分为三大类:具有时间约束的历时性时序知识图谱表示模型、基于时间序列编码的时序知识图谱表示模型和基于路径推理的时序知识图谱表示模型．其中在各通用数据上表现最佳的模型为２０２１年Zhu等人[２６]提出的 CyGNet,其模型结构如图２所示．

２) 非时序的动态知识图谱表示学习

对于非时序动态知识图谱,其在应用和更新过程中,可以加入新的实体和关系,新实体与原有实体构成的三元组只要在现实应用场景下为正确的,则可将此三元组纳入到原有的知识图谱中．所以非时序动态知识图谱的规模是可以随着现实情况不断增大的, 被认为是一种动态变化的知识图谱．针对非时序知识图谱,其中最初的模型是在原有的 DKRL模型[３４]上进行简单的更改,直接应用于开放世界知识图谱上, 其效果相比其他静态的算法有所提高,成为了这个任务的一个基准结果,其模型基础框架如图３所示． DKRL的优势不仅在于提升了实体表示的区分能力,而且更在于其对新实体的表示,当一个未在知识图谱中出现的新实体出现时,DKRL 将根据新实体的简短描述生成它的表示,用于知识图谱补全．

Shi等人[３５]提出了一种以文本为中心的表示方法 ConMask,其中头实体、关系和尾实体基于文本的向量表示是通过注意力模型在名称和描述上得出的,并且通过全卷积神经网络 (fullyconvolutional neuralnetwork)得到三元组的评分,最后通过评分完成实体与关系的预测． Shah等人[３６]提出了区别于 DKRL和 ConMask 这２种方法的新模型 OWE,其独立地训练知识图谱和文本向量,然后通过缺失实体的描述文本向量模糊代替实体的表示,在知识图谱中进行匹配,最终得到实体与关系的预测结果．该模型可以调整和选用不同的基础知识图谱表示模型得到不同的融合模型,在不同环境任务中发挥更好的作用． Wang等人[３７]提出了一种基于胶囊网络的新模型 CapsＧOWKG,其在融合知识图谱的结构信息和描述信息后,采用胶囊网络提取三元组的特征,得到动态非时序知识图谱三元组的表示．Gaur等人[３８]提出了一个框架 HUKA,它使用起源多项式通过编码生成答案所涉及的边来跟踪知识图谱上查询结果的推导． Das等人[３９]证明了基于案例的推理(caseＧbased reasoning,CBR)系统通过检索与给定问题相似的 “案例”来解决一个新问题是可以实现动态知识库 (KBs)．其通过收集知识库中相似实体的推理路径来预测实体的属性．概率模型估计路径在回答关于给定实体的查询时有效的可能性．在国内,最初的模型是在 Xie等人[３４]提出的 DKRL模型上进行简单的更改,直接应用于开放世界知识图谱上,其效果相比其他静态的算法有所提高,成为了这个任务的一个基准结果．杜治娟等人[４０]提出一种表示学习方法 TransNS．其选取相关的邻居作为实体的属性来推断新实体, 并在学习阶段利用实体之间的语义亲和力选择负例三元组来增强语义交互能力．Xie等人[４１]提出了一种基于深度递归神经网络 DKGCＧJSTD的动态知识图谱补全模型．该模型学习实体名称及其部分文本描述的嵌入,将看不见的实体连接到知识图谱．为了建立文本描述信息与拓扑信息之间的相关性,DKGCＧJSTD 采用深度记忆网络和关联匹配机制,从实体文本描述中提取实体与关系之间的相关语义特征信息．然后利用深度递归神经网络对拓扑结构与文本描述之间的依赖关系进行建模． Zhou等人[４２]提出了一种聚合器,采用注意网络来获取实体描述中单词的权重．这样既不打乱词嵌入中的信息,又使聚合的单词嵌入更加高效． Niu等人[４３]使用多重交互注意(MIA)机制来模拟头部实体描述、头部实体名称、关系名称和候选尾部实体描述之间的交互,以形成丰富的表示．此外,还利用头部实体描述的额外文本特征来增强头部实体的表示,并在候选尾部实体之间应用注意机制来增强它们的表示．

2.2 知识图谱的预训练模型

知识广泛存在于文本、结构化及其他多种模态的数据中．除了通过抽取技术将知识从原始数据中萃取出来以支持搜索、问答、推理、分析等应用以外, 另外一种思路是利用数据中本身存在的基本信号对隐藏的知识进行预训练．预训练的核心思想是“预训练和微调”,例如预训练一般包含２个步骤:首先利用大量的通用知识数据训练一个知识模型,获取文本中包含的通用知识信息;然后在下游任务微调阶段,针对不同下游任务,设计相应的目标函数,基于相对较少的监督数据进行微调,便可得到不错的效果．近２年对面向知识表示、面向自然语言、面向下游任务和基于图结构的预训练模型这４类有所进展,代表性模型如表３所示:

１) 面向知识图谱表示的预训练模型

在词向量表示中,预训练模型分为２个部分,分别是预训练与微调,这样的模式可以使词向量表示更适合于不同的应用环境．同样地,在面向知识表示的预训练模型中,同样先采用预训练的向量表示,然后再基于此进行进一步的深化挖掘．这类预训练模型,旨在通过引入新的处理方法对预训练的知识表示进行进一步的特征挖掘,以此可以得到原有表示不具备的特征,如 ConvKB [４４],CapsE [４５]等．这类模型不能最大化地提取三元组的特征,模型预训练效果依赖于基础知识图谱表示学习模型的选择．

２) 面向自然语言问题的预训练模型

知识图谱在处理与自然语言相关的任务时,必不可少地与语言模型相互联系．这一类预训练模型, 主要是将知识融合到一个词向量模型中形成一个既包含知识又具备上下文信息的预训练词向量．近几年的相关研究主要是将知识融合到BERT 中形成新的预训练模型．典型的模型有:CMU 和微软联合提出的 JAKET [４６]、清华大学和华为联合提出的 ERNIE [４７]、北京大学和腾讯联合提出的模型 KＧBERT [４８]、复旦大学和亚马逊提出的 CoLAKE [４９]、清华大学和 Mila 实验室提出的 KEPLER [５０]等．这类模型利用实体信息增强了预训练效果并减少了训练时间,但不适用于缺少实体相关描述的预训练任务．

３) 面向下游任务的预训练模型

知识图谱预训练模型还可以通过不同的特殊下游任务来帮助向预训练模型融入任务相关的知识．主要方法是在对具体的下游任务进行微调时,可以采用不同的适配器来针对性地加入特征,进而增强其效果．代表性的工作有复旦大学和微软提出的 KＧ ADAPTER [５１]和阿里巴巴实验室提出的“预训练＋知识向量服务”的模式 PKGM [５２],结构如图４所示．这类模型需要尽可能大且全量的知识图谱数据集, 这样才能发挥模型预训练的优势,因此模型对于图谱完成性差、稀疏度高的知识图谱预训练较差．

４) 基于图谱中图结构的预训练模型

知识图谱是一种特殊的信息图,可以通过适用于图的方法 GNN 获取知识图谱的部分结构特征．图神经网络(graphneuralnetworks,GNNs)已被证明是建模图结构数据的强大工具,然而,训练 GNN 模型通常需要大量的特定任务的标记数据,而获取这些数据往往非常昂贵．利用自监督 GNN 模型对未标记数据进行预训练是减少标记工作的一种有效方法,预训练学习到的模型可用在只有少量标签图谱数据的下游任务中．代表性的工作有:GPTＧ GNN [５３],GI [５４],GraphCL [５５],GCC [５６]等．这类方法不依赖于图谱的节点与边信息,仅利用图结构进行预训练,避免复杂的特征工程,但缺陷是耗时巨大．

３神经符号结合的知识更新与推理

ACM 图灵奖获得者 YoshuaBengio在 NeuIPS ２０１９的特邀报告中明确提到,深度学习需要从系统１到系统２转化．这里所说的系统１和系统２来源于认知科学中的双通道理论,其中系统１可以理解为神经系统,它表示直觉的、快速的、无意识的系统;系统２可以理解为符号系统,它表示慢的、有逻辑的、有序的、可推理的系统．Bengio所提的系统２关于深度学习的想法与“神经＋符号”的知识表示与推理目标基本一致．神经系统优势在于能够轻松处理图像识别、文本分类等一类机器学习擅长的问题,模型能够允许数据噪音的存在,但缺点在于其端到端的过程缺乏可解释性,并且在模型求解答案过程中难以嵌入已有的人类知识．相反地,符号系统可以完美地定义各类专家经验规则和知识,形成对结构化数据的各类原子操作,在此基础上通过搜索和约束进行求解,整个过程的解释性和可理解性也很强．但是, 符号系统的缺点在于难以处理很多拥有异常数据和噪音的场景．然而,“神经＋符号”到底如何有机结合, 实现起来并不容易．知识图谱从早期的知识库、专家系统,到谷歌２０１２年正式提出知识图谱,其发展历程也体现了神经系统和符号系统的各自发展缩影, 整体上可分为神经助力符号和符号助力神经两大类．

3.1 神经助力符号推理

神经助力符号推理方法的特点在于将神经的方法应用在传统符号系统的问题求解,通常主要是解决浅层的推理问题,其核心在于如何将神经系统学到的“浅层知识表示”(计算结构和连续型数值表示的知识)更新到已有的符号知识体系中(离散的、显式的符号化知识)，敏捷逻辑(swiftlogic)是牛津大学 Gottlob等人[５７]关于“神经＋符号”的尝试,如图５所示,该系统既能够执行复杂的推理任务(以 Datalog ± 语言为理论基础),同时在可接受的计算复杂度下,利用神经网络在大数据上实现高效和可扩展的推理．此外,敏捷逻辑还定义了与企业数据库、网络、机器学习和分析软件包的接口,以实现与数据库和人工智能中不断出现的新技术相结合．敏捷逻辑的特点是不局限于模型层面的结合,更关注从知识图谱管理系统框架层面来使用神经和符号多种技术．

正在上传…重新上传取消

3.2 符号助力神经计算

符号助力神经方法的特点在于将符号的方法应用在神经网络的训练过程中．

3.3 神经符号结合的知识表示与推理

一个完美的“神经＋符号”系统的特点和优势为:１)能够轻松处理目前主流机器学习擅长的问题; ２)对于数据噪音有较强的鲁棒性;３)系统求解过程和结果可以被人容易地进行理解、解释和评价;４)可以很好地进行各类符号的操作;５)可以无缝地利用各种背景知识．从以上标准来看,实现神经符号知识表示的充分结合还有很长一段路要走．国外目前最具代表性的研究为 Cohen等人[９１]和 Lamb等人[９２] 的研究工作． Cohen [９１]作为人工智能领域的重要学者,近年来发表了一系列的神经符号结合的研究工作,其中典型工作 DrKIT 的整体框架如图６所示．DrKIT 使用语料库作为虚拟的知识图谱,进而实现复杂多跳问题求解．DrKIT 采用传统知识图谱上的搜索策略进行文本数据的遍历,主要是遵循语料库中包含文本提及实体之间的关系路径．在每个步骤中,DrKIT 使用稀疏矩阵 TF∕IDF 索引和最大内积搜索,并且整个模块是可微的,所以整个系统可使用基于梯度的方法从自然语言输入到输出答案进行训练．DrKIT 非常高效,每秒比现有的多跳问答系统快１０~１００倍,同时保持了很高的精度．

４研究进展比较

4.1 非结构化多模态数据组织与理解

在非结构化多模态数据组织方面,多模态知识图谱目前已经成为国内外学者对于多种类型数据组织的共识,国内外的学者均有新的研究成果．对于国外研究团队而言,其核心思路依然是从维基百科中抽取已有知识图谱的多模态数据资源,而国内研究团队将范围扩展到了通过全域的数据资源来补充已有知识图谱中的视觉和文本信息．可以看出,对于知识图谱而言,开放域的非结构化数据资源丰富,但是如何同已有结构化的图谱融合并建立不同模态数据之间的语义关联是关键．此外,国内研究团队面向垂直领域(智慧教育)提出了系统级的研究工作,这一点要比国外的研究更具有落地思维,可以预见未来国内在更多垂域会出现以多模态知识图谱为基础的系统和应用．在多模态数据理解方面,受益于深度学习技术的持续发展,国内外在该领域都取得了最新的研究成果．可以看出,国内研究人员已经可以从延续他人工作转变为开辟新的研究领域,这一点说明国内在该领域走在世界学术前沿．值得一提的是,国内学者在知识图谱驱动的多模态数据理解方面同样具有较强的应用落地思维,分别面向推荐系统等垂直场景进行了探索尝试．

4.2 大规模动态知识图谱表示学习与预训练

在大规模动态表示学习方面,国内外均有新的研究成果,在不同的方向有所突破．国外在序列模型编码方法上有更多模型被提出,对 GCN,GNN 等类型的编码器进行了改进,在动态表示方面取得了更好的结果;而国内主要的工作集中在基于分解、基于历时性编码和基于随机游走改进３个方面,虽然与国外的方法思路不同,但是在动态表示方面也有亮点和突出表现．知识图谱预训练是近两年的一个热点方向,国内外很多研究机构都针对此方面有所研究并做出了突破．国外在图谱表示的预训练方面有一些新的工作,并在基于知识图谱图结构的预训练方面有更多的进展．而国内,基于自然语言方面的知识预训练有更多的新模型产生,诸如北京大学、清华大学等学校,百度等企业均在这方面有新的研究成果产生．尤其是面向基于大规模知识下游任务的预训练模型,有了重大突破,对数以１０亿计规模的知识进行了预训练,并应用于阿里电商平台,为商品推荐、语义搜索和智能问答等下游任务提供支持．

4.3 神经符号结合的知识表示与推理

在神经助力符号方面,国内外均有新的研究成果．通过比较可以看出,国外研究团队在知识图谱表示学习技术的初期走在该领域的前沿,提出了一系列开创性的工作;国内的研究团队主要针对各类模型和数据特点进行改进,在后期逐渐提出了创新性更高和实用性更强的工作,尤其是知识图谱表示学习技术在其他任务(如智能问答、近似搜索、推荐系统、实体对齐、社交网络等)中有效地使用,国内研究团队走在学术的前沿,可以看出国内学者更倾向于应用层级的研究．除此之外,在逻辑推理等偏理论的模型中如何引入神经网络,国内研究工作还不多．在符号助力神经方面,国内外都走在学术的前沿．在神经符号结合方面,谷歌公司依然走在世界的最前沿, 提出了一系列开创性工作,国内这方面的工作还偏少．不过整个神经符号的有机结合还属于初期探索领域,随着越多的研究者开始关注,未来我国研究团队还有很大的提升空间．

总结

本文围绕支撑新一代知识图谱的关键技术研究进展与趋势展开系统性论述,内容包括:非结构化多模态图谱组织与理解、大规模动态图谱表示学习与预训练模型、神经符合结合的知识表示与推理．在此基础上,给出了国内与国际的当前研究进展,并对国内外研究进展进行比较．最后对这些关键技术的发展趋势进行了展望．

你可能感兴趣的:(知识图谱,人工智能)

AI交互的初期魅力与后期维护挑战
AI交互的初期魅力与后期维护挑战引言在当今数字化时代，人工智能（AI）技术正迅速渗透到各个领域，特别是人机交互方面。许多开发者、设计师和用户在初次与AI交互时，往往感受到一种“一时爽”的快感。这种交互方式看似高效、智能，能够快速响应需求，提供即时反馈。然而，随着时间的推移，这种初期魅力往往会转化为高昂的后期维护成本。本文将深入讨论AI交互的这一双面性，重点分析细节沟通不足以及UI设计中AI难以处理
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
马斯克整出的半仙儿，Chat GPT会让多少白领失业？可能会带来哪些变化？良辰美景5566
这几天，ChatGPT火了，是美国一家叫OpenAI的高科技公司研发的，背后的投资人是谁？——埃隆马斯克！这哥们儿只要一出手，注定就和新奇呀伟大呀啥的绑在一起了，他搞的项目，比如特斯拉、星链、脑机接口，光听名字就透着不俗。很多人纳闷儿，他这次搞得ChatGPT是个啥玩意儿？简单说就是一个人工智能聊天软件，这个软件比以往的智能聊天软件强在哪儿？这么说吧，这简直就是个半仙儿啊。如果您是一位老人，这个C
量子计算与AI融合的技术突破与实践路径
量子计算与人工智能的融合正开启一个全新的技术纪元，这种"量智融合"不是简单的技术叠加，而是多领域、多学科的横向连接，通过协同创新实现非线性增长。本文将深入探讨这一领域的最新进展、技术实现路径以及行业应用案例。电子-光子-量子一体化芯片：硬件基础突破2025年7月，美国波士顿大学、加州大学伯克利分校和西北大学团队联合开发出全球首个电子-光子-量子一体化芯片系统。这一突破性成果发表在《自然·电子学》杂
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
2024年，想要靠做软件测试获得高薪，还有机会吗？朱公子的Note 软件测试
2024年，科技行业风云变幻，随着自动化技术和人工智能的发展，软件测试领域的竞争愈发激烈。很多人会问，现在还投身软件测试，真的能拿到高薪吗？尤其是当越来越多的自动化工具涌现，手动测试员会不会被淘汰？时间过得真快，一眨眼，2024年已经过去了一大半。最近正值金九银十招聘季，后台不免又出现了这几个同学们关心的问题：2024年还能转行软件测试吗？零基础转行可行吗？那么，2024年，软件测试行业的高薪岗位
2023-09-15 五角大楼探索生成式人工智能解决方案泰格
佳文砺道智库2023-09-1409:58发表于北京据“防务头条”网9月12日报道，美国研究机构“特殊竞争力研究项目”（SCSP）的一份报称告，如果美国想在制定生成式人工智能的开发和使用规范方面引领全球，就必须增加联邦研发支出，建立新的政府机构，或者改变现有的政府机构。生成式人工智能可以加速新药和网络安全解决方案的发现，从根本上实现更好的计算机网络，并提高公众的理解。但在对手手中，它可能会导致更多
人工智能服务器处理器的全新定义两大头部品牌旗舰款的王者之争！云储存cpu_云服务器处理器_企业服务器处理器
一、旗舰处理器架构解析IntelXeon6900系列代表着英特尔在服务器处理器领域的最新成果，采用增强版Intel7制程工艺打造。该系列最高配置56个物理核心，通过超线程技术支持112个逻辑线程，在处理多线程任务时展现出卓越的性能表现。内存子系统方面，支持8通道DDR5-4800内存配置，最高可扩展至4TB容量，为内存密集型应用提供了充足带宽。特别值得一提的是其集成的AMX高级矩阵扩展指令集，这项
院级医疗AI管理流程—基于数据共享、算法开发与工具链治理的系统化框架 Allen_Lyb 医疗高效编程研发人工智能算法时序数据库经验分享健康医疗
医疗AI：从“单打独斗”到“协同共进”在科技飞速发展的今天，医疗人工智能（AI）正以前所未有的速度改变着传统医疗模式。从最初在影像诊断、临床决策支持、药物发现等单一领域的“单点突破”，医疗AI如今已迈向“系统级协同”的新阶段。曾经，医疗AI的应用多集中在某一特定环节，比如利用深度学习算法分析医学影像，辅助医生进行疾病诊断。这种单点突破式的应用虽然在一定程度上提高了医疗效率，但随着医疗行业对AI技术
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
人人皆有神功：AI如何改变程序员的江湖地位？ nbsaas-boot 人工智能大数据
在人类的历史中，每一次技术革命都重新洗牌了社会的力量结构：工业革命带来机器力量的爆发，信息时代成就了程序员的黄金时代。而如今，随着通用人工智能（AGI）和大模型技术的突飞猛进，我们正在步入一个**“人人皆有神功”的AI江湖时代**。当AI成为每个人的智能助手，编程是否还重要？程序员将何去何从？本文将以“武林江湖”的隐喻，探索AI时代的技术平权与社会重构。一、技术平权真的来了吗？过去，程序员之所以被
工业大模型应用报告：新机遇、挑战与未来展望花生糖@ AIGC学习资料库大模型人工智能应用扩展屏应用开发 AI 机器学习
大模型在工业智能化发展中的新机遇、挑战与展望。以下是报告的核心内容概述：大模型为工业智能化发展带来新机遇大模型开启人工智能应用新时代，推动技术创新和应用。大模型有望成为驱动工业智能化的引擎，提高研发效率、拓展生产制造智能化应用边界、提升经营管理水平。大模型应用落地需要深度适配工业场景，解决行业知识和企业特定环境的理解问题。大模型和小模型在工业领域将长期并存小模型应用呈现倒U型分布，主要集中在生产制
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key