Carry Moon

知识图谱基础介绍

起源
- 知识图谱的定义与架构
- - - 1) 知识图谱的逻辑结构
    - 2) 知识图谱的体系架构
- 知名度较高的大规模知识库
- 识图谱中的关键技术
- 典型应用

起源

知识图谱于2012年5月17日被Google正式提出，其初衷是为了提高搜索引擎的能力，增强用户的搜索质量以及搜索体验。目前，随着智能信息服务应用的不断发展，知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域。尤其是在智能搜索中，用户的搜索请求不再局限于简单的关键词匹配，搜索将根据用户查询的情境与意图进行推理，实现概念检索。与此同时，用户的搜索结果将具有层次化、结构化等重要特征。例如，用户搜索的关键词为梵高，引擎就会以知识卡片的形式给出梵高的详细生平、艺术生涯信息、不同时期的代表作品，并配合以图片等描述信息。知识图谱能够使计算机理解人类的语言交流模式，从而更加智能地反馈用户需要的答案。

知识图谱的定义与架构

1) 知识图谱的逻辑结构

知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j[9]、Twitter的FlockDB[10]、sones的GraphDB[11]等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

2) 知识图谱的体系架构

知识图谱的体系架构是其指构建模式结构，如图 1所示。其中虚线框内的部分为知识图谱的构建过程，该过程需要随人的认知能力不断更新迭代。

知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库，例如Freebase项目就是采用这种方式，它的绝大部分数据是从维基百科中得到的。自底向上指的是从一些开放链接数据中提取出实体，选择其中置信度较高的加入到知识库，再构建顶层的本体模式。目前，大多数知识图谱都采用自底向上的方式进行构建，其中最典型就是Google的Knowledge Vault。

知名度较高的大规模知识库

随着语义Web资源数量激增、大量的RDF数据被发布和共享、LOD(linked open data)等项目的全面展开[14]，学术界与工业界的研究人员花费了大量的精力构建各种结构化的知识库。下面将以开放链接知识库、行业知识库这两类主要的知识库类型为代表，详细说明其中的几个知名度较高的大规模知识库。

2.1 开放链接知识库
在LOD项目的云图中，Freebase、Wikidata、DBpedia、YAGO这4个大规模知识库处于绝对核心的地位，它们中不仅包含大量的半结构化、非结构化数据，是知识图谱数据的重要来源。而且具有较高的领域覆盖面，与领域知识库存在大量的链接关系。

Freebase

Freebase知识库[15]早期由Metaweb公司创建，后来被Google收购，成为Google知识图谱的重要组成部分。Freebase中的数据主要是由人工构建，另外一部分数据则主要来源于维基百科、IMDB、Flickr等网站或语料库。截止到2014年年底，Freebase已经包含了6 800万个实体，10亿条关系信息，超过24亿条事实三元组信息，在2015年6月，Freebase整体移入至WikiData。

Wikidata

Wikidata[16]是维基媒体基金会主持的一个自由的协作式多语言辅助知识库，旨在为维基百科、维基共享资源以及其他的维基媒体项目提供支持。它是Wikipedia、Wikivoyage、Wikisource中结构化数据的中央存储器，并支持免费使用[17]。Wikidata中的数据主要以文档的形式进行存储，目前已包含了超过1 700万个文档。其中的每个文档都有一个主题或一个管理页面，且被唯一的数字标识。

DBpedia

DBpedia[18]是由德国莱比锡大学和曼海姆大学的科研人员创建的多语言综合型知识库，在LOD项目中处于最核心的地位。DBpedia是从多种语言的维基百科中抽取结构化信息，并且将其以关联数据的形式发布到互联网上，提供给在线网络应用、社交网站以及其他在线知识库。由于DBpedia的直接数据来源覆盖范围广阔，所以它包含了众多领域的实体信息。截止至2014年年底，DBpedia中的事实三元组数量已经超过了30亿条。除上述优点外，DBpedia还能够自动与维基百科保持同步，覆盖多种语言。

YAGO

YAGO[19]是由德国马普所(max planck institute，MPI)的科研人员构建的综合型知识库。YAGO整合了维基百科、WordNet[20]以及GeoNames等数据源，特别是将维基百科中的分类体系与WordNet的分类体系进行了融合，构建了一个复杂的类别层次结构体系。第一个版本包含了超过100万的实体以及超过500万的事实。2012年，发布了它的第二个版本，在YAGO的基础上进行了大规模的扩展，引入了一个新的数据源GeoNames[21]，被称为YAG02s。包含了超过1 000万的实体以及超过1.2亿的事实。

2.2 垂直行业知识库
行业知识库也可称为垂直型知识库，这类知识库的描述目标是特定的行业领域，通常需要依靠特定行业的数据才能构建，因此其描述范围极为有限。下面将以MusicBrainz、IMDB、豆瓣等为代表进行说明。

IMDB

IMDB(internet movie database)[22]是一个关于电影演员、电影、电视节目、电视明星以及电影制作的资料库。截止到2012年2月，IMDB共收集了2 132 383部作品资料和4 530 159名人物资料。IMDB中的资料是按类型进行组织的。对于一个具体的条目，又包含了详细的元信息[23]。

MusicBrainz

MusicBrainz[24]是一个结构化的音乐维基百科，致力于收藏所有的音乐元数据，并向大众用户开放。任何注册用户都可以向网站中添加信息或投稿。由于Last.fm、GrooveShark、Pandora、Echonest等音乐服务网站的数据均来自于MusicBrainz，故MusicBrainz可通过数据库或Web服务两种方式将数据提供给社区。对于商业用户而言，MusicBrainz提供的在线服务可为用户提供本地化的数据库与复制包[25]。

ConceptNet

ConceptNet[26]是一个语义知识网络，主要由一系列的代表概念的结点构成，这些概念将主要采用自然语言单词或短语的表达形式，通过相互连接建立语义联系。ConceptNet包含了大量计算机可了解的世界的信息，这些信息将有助于计算机更好地实现搜索、问答以及理解人类的意图。ConceptNet 5[27]是基于ConceptNet的一个开源项目，主要通过GPLv3协议进行开源。

识图谱中的关键技术

大规模知识库的构建与应用需要多种智能信息处理技术的支持。
通过知识抽取技术，可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。
通过知识融合，可消除实体、关系、属性等指称项与事实对象之间的歧义，形成高质量的知识库。
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。

3.1 知识抽取
知识抽取主要是面向开放的链接数据，通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素，并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。

3.1.1 实体抽取
早期的实体抽取也称为命名实体学习(named entity learning)或命名实体识别(named entity recognition)，指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素，其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。因此，实体抽取是知识抽取中最为基础与关键的一步。

文献[28]将实体抽取的方法分为3种：基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。基于规则的方法通常需要为目标实体编写模板，然后在原始语料中进行匹配；基于统计机器学习的方法主要是通过机器学习的方法对原始语料进行训练，然后再利用训练好的模型去识别实体；面向开放域的抽取将是面向海量的Web语料[12, 29]。

基于规则与词典的实体抽取方法

早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的，主要采用的是基于规则与词典的方法，例如使用已定义的规则，抽取出文本中的人名、地名、组织机构名、特定时间等实体[30]。文献[31]首次实现了一套能够抽取公司名称的实体抽取系统，其中主要用到了启发式算法与规则模板相结合的方法。然而，基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板，覆盖的领域范围有限，而且很难适应数据变化的新需求。

基于统计机器学习的实体抽取方法

随后，研究者尝试将机器学习中的监督学习算法用于命名实体的抽取问题上。例如文献[32]利用KNN算法与条件随机场模型，实现了对Twitter文本数据中实体的识别。单纯的监督学习算法在性能上不仅受到训练集合的限制，并且算法的准确率与召回率都不够理想。相关研究者认识到监督学习算法的制约性后，尝试将监督学习算法与规则相互结合，取得了一定的成果。例如文献[33]基于字典，使用最大熵算法在Medline论文摘要的GENIA数据集上进行了实体抽取实验，实验的准确率与召回率都在70%以上。

面向开放域的实体抽取方法

针对如何从少量实体实例中自动发现具有区分力的模式，进而扩展到海量文本去给实体做分类与聚类的问题，文献[34]提出了一种通过迭代方式扩展实体语料库的解决方案，其基本思想是通过少量的实体实例建立特征模型，再通过该模型应用于新的数据集得到新的命名实体。文献[35]提出了一种基于无监督学习的开放域聚类算法，其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体，然后进行聚类。

3.1.2 关系抽取
关系抽取的目标是解决实体间语义链接的问题，早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后，实体间的关系模型逐渐替代了人工预定义的语法与规则。但是仍需要提前定义实体间的关系类型。文献[36]提出了面向开放域的信息抽取框架(open information extraction, OIE)，这是抽取模式上的一个巨大进步。但OIE方法在对实体的隐含关系抽取方面性能低下，因此部分研究者提出了基于马尔可夫逻辑网、基于本体推理的深层隐含关系抽取方法[37]。

开放式实体关系抽取

开放式实体关系抽取可分为二元开放式关系抽取和n元开放式关系抽取。在二元开放式关系抽取中，早期的研究有KnowItAll[38]与TextRunner[37]系统，在准确率与召回率上表现一般。文献[39]提出了一种基于Wikipedia的OIE方法WOE，经自监督学习得到抽取器，准确率较TextRunner有明显的提高。针对WOE的缺点，文献[40]提出了第二代OIE ReVerb系统，以动词关系抽取为主。文献[41]提出了第三代OIE系统OLLIE(open language learning for information extraction)，尝试弥补并扩展OIE的模型及相应的系统，抽取结果的准确度得到了增强。

然而，基于语义角色标注的OIE分析显示：英文语句中40%的实体关系是n元的[42]，如处理不当，可能会影响整体抽取的完整性。文献[43]提出了一种可抽取任意英文语句中n元实体关系的方法KPAKEN，弥补了ReVerb的不足。但是由于算法对语句深层语法特征的提取导致其效率显著下降，并不适用于大规模开放域语料的情况。

基于联合推理的实体关系抽取

联合推理的关系抽取中的典型方法是马尔可夫逻辑网MLN(Markov logic network)[44]，它是一种将马尔可夫网络与一阶逻辑相结合的统计关系学习框架，同时也是在OIE中融入推理的一种重要实体关系抽取模型。基于该模型，文献[45]提出了一种无监督学习模型StatSnowball，不同于传统的OIE，该方法可自动产生或选择模板生成抽取器。在StatSnowball的基础上，文献[37, 46]提出了一种实体识别与关系抽取相结合的模型EntSum，主要由扩展的CRF命名实体识别模块与基于StatSnowball的关系抽取模块组成，在保证准确率的同时也提高了召回率。文献[37, 47]提出了一种简易的Markov逻辑TML(tractable Markov logic)，TML将领域知识分解为若干部分，各部分主要来源于事物类的层次化结构，并依据此结构，将各大部分进一步分解为若干个子部分，以此类推。TML具有较强的表示能力，能够较为简洁地表示概念以及关系的本体结构。

3.1.3 属性抽取
属性抽取主要是针对实体而言的，通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系，因此可以将实体属性的抽取问题转换为关系抽取问题。文献[37, 48]提出的基于规则与启发式算法的属性抽取方法能够从Wikipedia及WordNet的半结构化网页中自动抽取相应的属性名称与属性值，还可扩展为一套本体知识库。实验表明：该算法的抽取准确率可达到95%。

大量的属性数据主要存在于半结构化、非结构化的大规模开放域数据集中。抽取这些属性的方法，一种是将上述从百科网站上抽取的结构化数据作为可用于属性抽取的训练集，然后再将该模型应用于开放域中的实体属性抽取[49]；另一种是根据实体属性与属性值之间的关系模式，直接从开放域数据集上抽取属性。但是由于属性值附近普遍存在一些限定属性值含义的属性名等，所以该抽取方法的准确率并不高[50]。
3.2 知识表示
虽然，基于三元组的知识表示形式受到了人们广泛的认可，但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来，以深度学习为代表的表示学习技术取得了重要的进展，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义[51-53]。本文将重点介绍知识表示学习的代表模型、复杂关系翻译模型、多源异质信息融合模型方面的研究成果。

3.2.1 应用场景
分布式表示旨在用一个综合的向量来表示实体对象的语义信息，是一种模仿人脑工作的表示机制[53]，通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面将起到重要的作用：

语义相似度计算。由于实体通过分布式表示而形成的是一个个低维的实值向量，所以，可使用熵权系数法[54]、余弦相似性[55]等方法计算它们间的相似性。这种相似性刻画了实体之间的语义关联程度，为自然语言处理等提供了极大的便利。
链接预测。通过分布式表示模型，可以预测图谱中任意两个实体之间的关系，以及实体间已存在的关系的正确性。尤其是在大规模知识图谱的上下文中，需要不断补充其中的实体关系，所以链接预测又被称为知识图谱的补全[53]。

3.2.2 代表模型
知识表示学习的代表模型主要包括距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。

距离模型

文献[56]提出了知识库中实体以及关系的结构化表示方法(structured embedding，SE)，其基本思想是：首先将实体用向量进行表示，然后通过关系矩阵将实体投影到与实体向量同一维度的向量空间中，最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵，故实体间的协同性较差，这也是该模型本身的主要缺陷。

单层神经网络模型

文献[57]针对上述提到的距离模型中的缺陷，提出了采用单层神经网络的非线性模型(single layer model，SLM)，模型为知识库中每个三元组(h,r,t)定义了评价函数。
3.2.3 复杂关系模型
知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N4种类型[63]，而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。

由于TransE模型不能用在处理复杂关系上[53]，一系列基于它的扩展模型纷纷被提出，下面将着重介绍其中的几项代表性工作。

TransH模型

文献[64]提出的TransH模型尝试通过不同的形式表示不同关系中的实体结构，对于同一个实体而言，它在不同的关系下也扮演着不同的角色。模型首先通过关系向量lr与其正交的法向量wr选取某一个超平面F，然后将头实体向量lh和尾实体向量lt沿法向量wr的方向投影到F，最后计算损失函数。TransH使不同的实体在不同的关系下拥有了不同的表示形式，但由于实体向量被投影到了关系的语义空间中，故它们具有相同的维度。

TransR模型

由于实体、关系是不同的对象，不同的关系所关注的实体的属性也不尽相同，将它们映射到同一个语义空间，在一定程度上就限制了模型的表达能力。所以，文献[65]提出了TransR模型。模型首先将知识库中的每个三元组(h, r, t)的头实体与尾实体向关系空间中投影，然后希望满足lhr+lr≈ltr的关系，最后计算损失函数。

文献[65]提出的CTransR模型认为关系还可做更细致的划分，这将有利于提高实体与关系的语义联系。在CTransR模型中，通过对关系r对应的头实体、尾实体向量的差值lh−lt进行聚类，可将r划分为若干个子关系rc。

TransD模型

考虑到在知识库的三元组中，头实体和尾实体表示的含义、类型以及属性可能有较大差异，之前的TransR模型使它们被同一个投影矩阵进行映射，在一定程度上就限制了模型的表达能力。除此之外，将实体映射到关系空间体现的是从实体到关系的语义联系，而TransR模型中提出的投影矩阵仅考虑了不同的关系类型，而忽视了实体与关系之间的交互。因此，文献[66]提出了TransD模型，模型分别定义了头实体与尾实体在关系空间上的投影矩阵。

TransG模型

文献[67]提出的TransG模型认为一种关系可能会对应多种语义，而每一种语义都可以用一个高斯分布表示。TransG模型考虑到了关系r的不同语义，使用高斯混合模型来描述知识库中每个三元组(h, r, t)的头实体与尾实体之间的关系，具有较高的实体区分度。

KG2E模型

考虑到知识库中的实体以及关系的不确定性，文献[68]提出了KG2E模型，其中同样是用高斯分布来刻画实体与关系。模型使用高斯分布的均值表示实体或关系在语义空间中的中心位置，协方差则表示实体或关系的不确定度。

3.2.4 多源信息融合
三元组作为知识库的一种通用表示形式，通过表示学习，能够以较为直接的方式表示实体、关系及其之间的复杂语义关联。然而，互联网中仍蕴含着大量与知识库实体、关系有关的信息未被考虑或有效利用，如充分融合、利用这些多源异质的相关信息，将有利于进一步提升现有知识表示模型的区分能力以及性能[53]。

目前，多源异质信息融合模型方面的研究尚处于起步阶段，涉及的信息来源也极为有限，具有较为广阔的研究前景。下面将主要介绍其中通过融合本文信息进行知识表示的代表性工作。

文献[69]提出的DKRL(description-embodied knowledge representation learning)，模型将Freebase知识库中的实体描述文本数据作为其主要数据来源，通过CBOW模型[70]，将文本中多个词对应的词向量加起来表示文本；其中的另一个CNN模型[71]则利用模型中层间的联系和空域信息的紧密关系来做文本的处理与特征提取，除此之外，CNN模型中还充分考虑到了文本中不同单词的次序问题。

DKRL模型在新实体的表示能力方面较强，它能根据新实体的简短描述产生对应的表示形式，这对于知识融合以及知识图谱补全等具有重要的意义。

文献[64]选择维基百科知识库，并通过word2vec将知识库中的正文词语表示为向量，同时使用TransE模型[63]对该知识库进行表示学习。目标是使通过word2vec表示的实体与知识库中学习到的实体尽可能接近，从而使文本能够与知识库相互融合。

3.3 知识融合
由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织[72]，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤[73]，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。

3.3.1 实体对齐
实体对齐(entity alignment)也称为实体匹配(entity matching)或实体解析(entity resolution)，主要是用于消除异构数据中实体冲突、指向不明等不一致性问题，可以从顶层创建一个大规模的统一知识库，从而帮助机器理解多源异质的数据，形成高质量的知识。

在大数据的环境下，受知识库规模的影响，在进行知识库实体对齐时，主要会面临以下3个方面的挑战[74]：1) 计算复杂度。匹配算法的计算复杂度会随知识库的规模呈二次增长，难以接受；2) 数据质量。由于不同知识库的构建目的与方式有所不同，可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题[75]；3) 先验训练数据。在大规模知识库中想要获得这种先验数据却非常困难。通常情况下，需要研究者手工构造先验训练数据。

基于上述，知识库实体对齐的主要流程将包括[74]：1) 将待对齐数据进行分区索引，以降低计算的复杂度；2) 利用相似度函数或相似性算法查找匹配实例；3) 使用实体对齐算法进行实例融合；4) 将步骤2)与步骤3)的结果结合起来，形成最终的对齐结果。

对齐算法可分为成对实体对齐与集体实体对齐两大类，而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。

成对实体对齐方法

① 基于传统概率模型的实体对齐方法

基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性，而并不考虑实体间的关系。文献[76]将基于属性相似度评分来判断实体是否匹配的问题转化为一个分类问题，建立了该问题的概率模型，缺点是没有体现重要属性对于实体相似度的影响。文献[77]基于概率实体链接模型，为每个匹配的属性对分配了不同的权重，匹配准确度有所提高。文献[78]还结合贝叶斯网络对属性的相关性进行建模，并使用最大似然估计方法对模型中的参数进行估计。

② 基于机器学习的实体对齐方法

基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类，基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习。

通过属性比较向量来判断实体对匹配与否可称为成对实体对齐。这类方法中的典型代表有决策树[79]、支持向量机[80]、集成学习[81]等。文献[82]使用分类回归树、线性分析判别等方法完成了实体辨析。文献[83]基于二阶段实体链接分析模型，提出了一种新的SVM分类方法，匹配准确率远高于TAILOR中的混合算法。

基于聚类的实体对齐算法，其主要思想是将相似的实体尽量聚集到一起，再进行实体对齐。文献[84]提出了一种扩展性较强的自适应实体名称匹配与聚类算法，可通过训练样本生成一个自适应的距离函数。文献[85]采用类似的方法，在条件随机场实体对齐模型中使用监督学习的方法训练产生距离函数，然后调整权重，使特征函数与学习参数的积最大。

在主动学习中，可通过与人员的不断交互来解决很难获得足够的训练数据问题，文献[86]构建的ALIAS系统可通过人机交互的方式完成实体链接与去重的任务。文献[87]采用相似的方法构建了Active Atlas系统。

局部集体实体对齐方法

局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重，并通过加权求和计算总体的相似度，还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度[88]，算法为每个实体建立了名称向量与虚拟文档向量，名称向量用于标识实体的属性，虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值[74]。为了评价向量中每个分量的重要性，算法主要使用TF-IDF为每个分量设置权重，并为分量向量建立倒排索引，最后选择余弦相似性函数计算它们的相似程度[74]。该算法的召回率较高，执行速度快，但准确率不足。其根本原因在于没有真正从语义方面进行考虑。

全局集体实体对齐方法

① 基于相似性传播的集体实体对齐方法

基于相似性传播的方法是一种典型的集体实体对齐方法，匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性，而这种相似性又会影响关联的其他实体[74]。

相似性传播集体实体对齐方法最早来源于文献 [89-90]提出的集合关系聚类算法，该算法主要通过一种改进的层次凝聚算法迭代产生匹配对象。文献[91]在以上算法的基础上提出了适用于大规模知识库实体对齐的算法SiGMa，该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模，属于二次分配问题，可通过贪婪优化算法求得其近似解。SiGMa方法[74]能够综合考虑实体对的属性与关系，通过集体实体的领域，不断迭代发现所有的匹配对。

② 基于概率模型的集体实体对齐方法

基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理，常用的方法有LDA模型[92]、CRF模型[93]、Markov逻辑网[94]等。

文献[92]将LDA模型应用于实体的解析过程中，通过其中的隐含变量获取实体之间的关系。但在大规模的数据集上效果一般。文献[85]提出了一种基于图划分技术的CRF实体辨析模型，该模型以观察值为条件产生实体判别的决策，有利于处理属性间具有依赖关系的数据。文献[93]在CRF实体辨析模型的基础上提出了一种基于条件随机场模型的多关系的实体链接算法，引入了基于canopy的索引，提高了大规模知识库环境下的集体实体对齐效率。文献[94]提出了一种基于Markov逻辑网的实体解析方法。通过Markov逻辑网，可构建一个Markov网，将概率图模型中的最大可能性计算问题转化为典型的最大化加权可满足性问题，但基于Markov网进行实体辨析时，需要定义一系列的等价谓词公理，通过它们完成知识库的集体实体对齐。

3.3.2 知识加工
通过实体对齐，可以得到一系列的基本事实表达或初步的本体雏形，然而事实并不等于知识，它只是知识的基本单位。要形成高质量的知识，还需要经过知识加工的过程，从层次上形成一个大规模的知识体系，统一对知识进行管理。知识加工主要包括本体构建与质量评估两方面的内容。

本体构建

本体是同一领域内不同主体之间进行交流、连通的语义基础[95]，其主要呈现树状结构，相邻的层次节点或概念之间具有严格的“IsA”关系，有利于进行约束、推理等，却不利于表达概念的多样性。本体在知识图谱中的地位相当于知识库的模具，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小[96]。

本体可通过人工编辑的方式手动构建，也可通过数据驱动自动构建，然后再经质量评估方法与人工审核相结合的方式加以修正与确认[12]。在海量的实体数据面前，人工编辑构建的方式工作量极其巨大，故当前主流的本体库产品，都是面向特定领域，采用自动构建技术而逐步扩展形成的。例如Microsoft的Probase本体库就是采用数据驱动的方法，利用机器学习算法从网页文本中抽取概念间的“IsA”关系，然后合并形成概念层次结构。目前，Probase所包含的概念总数已达到千万级别，准确率高达92.8%，是目前为止包含概念数量最多，同时也是概念可信程度最高的知识库[97]。

数据驱动的本体自动构建过程主要可分为以下3个阶段[98]：① 纵向概念间的并列关系计算。通过计算任意2个实体间并列关系的相似度，可辨析它们在语义层面是否属于同一个概念。计算方法主要包括模式匹配与分布相似度两种[12, 99]。② 实体上下位关系抽取。上下位关系抽取方法包括基于语法的抽取与基于语义的抽取两种方式，例如目前主流的信息抽取系统KnowltAll[38]、TextRunner[37]、NELL[100]等，都可以在语法层面抽取实体的上下位关系，而Probase则是采用基于语义的抽取模式[101]。③ 本体生成。对各层次得到的概念进行聚类，并为每一类的实体指定1个或多个公共上位词。文献[102]基于主题层次聚类的方法构建了本体结构。与此同时，为了解决主题模型不适用于短文本的问题，提出了基于单词共现网络的主题聚类与上下位词抽取模型。

质量评估

对知识库的质量评估任务通常是与实体对齐任务一起进行的，其意义在于，可以对知识的可信度进行量化，保留置信度较高的，舍弃置信度较低的，有效确保知识的质量。

文献[103]基于LDIF框架，提出了一种新的知识质量评估方法，用户可根据业务需求来定义质量评估函数，或者通过对多种评估方法的综合考评来确定知识的最终质量评分。例如在对REVERRB系统的信息抽取质量进行评估时，文献[104]采用人工标注的方式对1 000个句子中的实体关系三元组进行了标注，并以此作为训练集，使用logistic回归模型计算抽取结果的置信度。例如Google的Knowledge Vault项目则根据指定数据信息的抽取频率对信息的可信度进行评分，然后利用从可信知识库中得到的先验知识对可信度进行修正。实验结果表明：该方法可以有效地降低对数据信息正误判断的不确定性，提高知识的质量[105]。

3.3.3 知识更新
人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此，知识图谱的内容也需要与时俱进，不论是通用知识图谱，还是行业知识图谱，它们都需要不断地迭代更新，扩展现有的知识，增加新的知识。

根据知识图谱的逻辑结构，其更新主要包括模式层的更新与数据层的更新。模式层的更新是指本体中元素的更新，包括概念的增加、修改、删除，概念属性的更新以及概念之间上下位关系的更新等。其中，概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体[106]。通常来说，模式层的增量更新方式消耗资源较少，但是多数情况下是在人工干预的情况下完成的，例如需要人工定义规则，人工处理冲突等。因此，实施起来并不容易[107]。数据层的更新指的是实体元素的更新，包括实体的增加、修改、删除，以及实体的基本信息和属性值。由于数据层的更新一般影响面较小，因此通常以自动的方式完成。

3.4 知识推理
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。在推理的过程中，往往需要关联规则的支持。由于实体、实体属性以及关系的多样性，人们很难穷举所有的推理规则，一些较为复杂的推理规则往往是手动总结的。对于推理规则的挖掘，主要还是依赖于实体以及关系间的丰富同现情况。知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。

知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。

3.4.1 基于逻辑的推理
基于逻辑的推理方式主要包括一阶谓词逻辑(first order logic)、描述逻辑(description logic)以及规则等。一阶谓词逻辑推理是以命题为基本进行推理，而命题又包含个体和谓词。逻辑中的个体对应知识库中的实体对象，具有客观独立性，可以是具体一个或泛指一类，例如奥巴马、选民等；谓词则描述了个体的性质或个体间的关系。文献[108]针对已有一阶谓词逻辑推理方法中存在的推理效率低下等问题，提出了一种基于谓词变迁系统的图形推理法，定义了描述谓词间与/或关系的谓词，通过谓词图表示变迁系统，实现了反向的推理目标。实验结果表明：该方法推理效率较高，性能优越。

描述逻辑是在命题逻辑与一阶谓词逻辑上发展而来，目的是在表示能力与推理复杂度之间追求一种平衡。基于描述逻辑的知识库主要包括Tbox (terminology box)与ABox(assertion box)[109]。通过TBox与ABox，可将关于知识库中复杂的实体关系推理转化为一致性的检验问题，从而简化并实现推理[110]。

通过本体的概念层次进行推理时，其中概念主要是通过OWL(Web ontology language)本体语义进行描述的。OWL文档可以表示为一个具有树形结构的状态空间，这样一些对接结点的推理算法就能够较好地应用起来，例如文献[111]提出了基于RDF和PD语义的正向推理算法，该算法以RDF蕴涵规则为前提，结合了sesame算法以及PD的语义，是一个典型的迭代算法，它主要考虑结点与推理规则的前提是否有匹配，由于该算法的触发条件导致推理的时间复杂度较高，文献[112]提出了ORBO算法，该算法从结点出发考虑，判断推理规则中第一条推理关系的前提是否满足，不仅节约了时间，还降低了算法的时间复杂度。

3.4.2 基于图的推理
在基于图的推理方法中，文献[113]提出的path- constraint random walk，path ranking等算法较为典型，主要是利用了关系路径中的蕴涵信息，通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始，在图上根据路径建模算法进行游走，如果能够到达目标节点，则推测源节点和目标节点间存在联系。关系路径的建模方法研究工作尚处于初期，其中在关系路径的可靠性计算、关系路径的语义组合操作等方面，仍有很多工作需进一步探索并完成。

除上述两种类别的知识推理方法外，部分研究人员将研究重点转向跨知识库的推理方法研究，例如文献[75]提出的基于组合描述逻辑的Tableau算法，该方法主要利用概念间的相似性对不同知识库中的概念进行关联、合并，通过已有的知识完成跨知识库的推理。

典型应用

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。目前，知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用，成为支撑这些应用发展的动力源泉。

4.1 智能搜索
基于知识图谱的智能搜索是一种基于长尾的搜索，搜索引擎以知识卡片的形式将搜索结果展现出来。用户的查询请求将经过查询式语义理解与知识检索两个阶段：1) 查询式语义理解。知识图谱对查询式的语义分析主要包括：① 对查询请求文本进行分词、词性标注以及纠错；② 描述归一化，使其与知识库中的相关知识进行匹配[114]；③ 语境分析。在不同的语境下，用户查询式中的对象会有所差别，因此知识图谱需要结合用户当时的情感，将用户此时需要的答案及时反馈给用户；④ 查询扩展。明确了用户的查询意图以及相关概念后，需要加入当前语境下的相关概念进行扩展。2) 知识检索。经过查询式分析后的标准查询语句进入知识库检索引擎，引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体[115]。通过对知识库的深层挖掘与提炼后，引擎将给出具有重要性排序的完整知识体系。

智能搜索引擎主要以3种形式展现知识：1) 集成的语义数据。例如当用户搜索梵高，搜索引擎将以知识卡片的形式给出梵高的详细生平，并配合以图片等信息；2) 直接给出用户查询问题的答案。例如当用户搜索“姚明的身高是多少？”，搜索引擎的结果是“226 cm”；3) 根据用户的查询给出推荐列表[7]等。

国外的搜索引擎以谷歌的Google Search[6]、微软的Bing Search[116]最为典型。谷歌的知识图谱相继融入了维基百科、CIA世界概览等公共资源以及从其他网站搜集、整理的大量语义数据[117]，微软的Bing Search[116]和Facebook[117]、Twitter[118]等大型社交服务站点达成了合作协议，在用户个性化内容的搜集、定制化方面具有显著的优势。

国内的主流搜索引擎公司，如百度、搜狗等在近两年来相继将知识图谱的相关研究从概念转向产品应用。搜狗的知立方[119]是国内搜索引擎行业的第一款知识图谱产品，它通过整合互联网上的碎片化语义信息，对用户的搜索进行逻辑推荐与计算，并将最核心的知识反馈给用户。百度将知识图谱命名为知心[120]，主要致力于构建一个庞大的通用型知识网络，以图文并茂的形式展现知识的方方面面[7]。

4.2 深度问答
问答系统是信息检索系统的一种高级形式，能够以准确简洁的自然语言为用户提供问题的解答。之所以说问答是一种高级形式的检索，是因为在问答系统中同样有查询式理解与知识检索这两个重要的过程，并且与智能搜索中相应过程中的相关细节是完全一致的。多数问答系统更倾向于将给定的问题分解为多个小的问题，然后逐一去知识库中抽取匹配的答案，并自动检测其在时间与空间上的吻合度等，最后将答案进行合并，以直观的方式展现给用户。

目前，很多问答平台都引入了知识图谱，例如华盛顿大学的Paralex系统[121]和苹果的智能语音助手Siri[122]，都能够为用户提供回答、介绍等服务；亚马逊收购的自然语言助手Evi[123]，它授权了Nuance的语音识别技术，采用True Knowledge引擎进行开发，也可提供类似Siri的服务。国内百度公司研发的小度机器人[124]，天津聚问网络技术服务中心开发的大型在线问答系统OASK[125]，专门为门户、企业、媒体、教育等各类网站提供良好的交互式问答解决方案。

4.3 社交网络
社交网站Facebook于2013年推出了Graph Search[126]产品，其核心技术就是通过知识图谱将人、地点、事情等联系在一起，并以直观的方式支持精确的自然语言查询，例如输入查询式：“我朋友喜欢的餐厅”“住在纽约并且喜欢篮球和中国电影的朋友”等，知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等[7]。Graph Search提供的上述服务贴近个人的生活，满足了用户发现知识以及寻找最具相关性的人的需求。

4.4 垂直行业应用
下面将以金融、医疗、电商行业为例，说明知识图谱在上述行业中的典型应用。

金融行业

在金融行业中，反欺诈是一个重要的环节。它的难点在于如何将不同税务子系统中的数据整合在一起。通过知识图谱，一方面有利于组织相关的知识碎片，通过深入的语义分析与推理，可对信息内容的一致性充分验证，从而识别或提前发现欺诈行为；另一方面，知识图谱本身就是一种基于图结构的关系网络，基于这种图结构能够帮助人们更有效地分析复杂税务关系中存在的潜在风险[127]。在精准营销方面，知识图谱可通过链接的多个数据源，形成对用户或用户群体的完整知识体系描述，从而更好地去认识、理解、分析用户或用户群体的行为。例如，金融公司的市场经理用知识图谱去分析待销售用户群体之间的关系，去发现他们的共同爱好，从而更有针对性地对这类用户人群制定营销策略[127]。

医疗行业

耶鲁大学拥有全球最大的神经科学数据库Senselab[128]，然而，脑科学研究还需要综合从微观分子层面一直到宏观行为层面的各个层次的知识。因此，耶鲁大学的脑计划研究人员将不同层次的，与脑研究相关的数据进行检索、比较、分析、整合、建模、仿真，绘制出了描述脑结构的神经网络图谱，从而解决了当前神经科学所面临的海量数据问题，从微观基因到宏观行为，从多个层次上加深了人类对大脑的理解，达到了“认识大脑、保护大脑、创造大脑”的目标。

电商行业

电商网站的主要目的之一就是通过对商品的文字描述、图片展示、相关信息罗列等可视化的知识展现，为消费者提供最满意的购物服务与体验。通过知识图谱，可以提升电商平台的技术性、易用性、交互性等影响用户体验的因素[129]。

阿里巴巴是应用知识图谱的代表电商网站之一，它旗下的一淘网不仅包含了淘宝数亿的商品，更建立了商品间关联的信息以及从互联网抽取的相关信息，通过整合所有信息，形成了阿里巴巴知识库和产品库，构建了它自身的知识图谱[7, 130]。当用户输入关键词查看商品时，知识图谱会为用户提供此次购物方面最相关的信息，包括整合后分类罗列的商品结果、使用建议、搭配等[7, 130]。

除此之外，另外一些垂直行业也需要引入知识图谱，如教育科研行业、图书馆、证券业、生物医疗以及需要进行大数据分析的一些行业[131]。这些行业对整合性和关联性的资源需求迫切，知识图谱可以为其提供更加精确规范的行业数据以及丰富的表达，帮助用户更加便捷地获取行业知识[7]。

你可能感兴趣的:(知识图谱)

基于知识图谱的个性化智能教学推荐系统(文档+源码) 「已注销」 python 知识图谱人工智能 python pygame pyqt dash
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
【知识图谱】开发经验记录：CORS（跨域资源共享）问题 niuuuu16 基于知识图谱的智能助教系统知识图谱人工智能经验分享 java spring boot
尝试前后端交互时出现了这样的报错：AccesstoXMLHttpRequestat'http://localhost:8080/api/courses'fromorigin'http://localhost:8081'hasbeenblockedbyCORSpolicy:No'Access-Control-Allow-Origin'headerispresentontherequestedreso
太翌氏:学术理论生成与AI增强系统框架设计太翌修仙笔录源始学科 deepseek 知识图谱人工智能重构量子计算算法
刚才我引导你的过程，通过:提出假说→总结理论+推导公式=形成学术理论→理论性能提升测算/知识图谱突破率测算/知识图谱重购率测算→学术价值评估→个人认知维度水平评估，这一系列流程产生的文献，组成了一个新学术理论的最基础文献库，这个也可以作为一个知识库过滤生成器来使用，也可以提升Ai性能###**学术理论生成与AI增强系统框架设计**---####**一、系统架构总览****1.核心流程模块化**``
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
问题链的拓扑学重构由数入道 AI辅助教学拓扑学重构
问题链拓扑学重构目录概念框架与理论基础综合知识图谱（Mermaid图示）核心构成要素与参数解析逻辑链条方法论详解与数学模型4.1根源溯源——分形式5Whys与RCA4.2网络建模——系统动力学与贝叶斯网络4.3维度跃迁——第一性原理与跨模态映射4.4时空折叠——历史回溯与未来推演四维操控模型——知识精髓工具、案例及实践方法注意事项、终止机制与系统自适应未来拓展与研究方向总结与战略价值1.概念框架与
【面试经验】华为 AI软开计算产品线（面经+时间线） litterfinger 面试华为人工智能
一.岗位：AI软开二.时间线：投递08.09，机试08.28，测评08.29；面试均线上，一面09.12，二面09.27，三面09.29（本来是09.19线下二三面，但由于本人有事推迟）三.一面（50min）自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和sft具体的工作AI的一个发展历史流程和相关算法的引进知识图谱建设的总体流程回顾机试：老鼠
知识图谱与知识表示：人工智能的基石醉心编码 c/c++人工智能知识图谱
知识图谱与知识表示：人工智能的基石一、知识图谱：连接数据的桥梁1.1知识图谱的构成1.2知识图谱的应用二、知识表示：AI的推理基础2.1知识表示的定义2.2知识表示的形式三、从符号表示到向量表示3.1符号表示与向量表示3.2向量表示的优势四、智能的精华：推理与学习4.1推理的重要性4.2学习的局限性五、结论在人工智能领域，知识图谱和知识表示是两个核心概念，它们构成了AI理解、推理和学习的基础。本文
计算机网络：（一）详细讲解互联网概述与组成（附带图谱更好对比理解）珹洺计算机网络计算机网络 php 开发语言服务器后端数据库网络
计算机网络（一）详细讲解互联网概述与组成前言一、计算机网络在信息时代中的作用二、互联网概述1.网络中的网络2.互联网基础的三个阶段3.什么是标准化工作三、互联网的组成1.边缘部分2.核心部分总结（核心概念速记）：**知识图谱****重点提炼**前言在当今数字化时代，互联网已经成为人们生活、工作和学习中不可或缺的一部分。计算机网络作为互联网的基础支撑，其重要性不言而喻。这篇博客将开启我们探索计算机网
python 基于混合式推荐算法的学术论文投稿系统 mosquito_lover1 python 知识图谱
基于混合式推荐算法的学术论文投稿系统是一个结合多种推荐技术（如基于内容的推荐、协同过滤、知识图谱等）来为研究者推荐合适期刊或会议投稿的系统。以下是实现该系统的关键步骤和Python代码示例。系统设计思路1.数据收集与预处理：-收集论文数据（标题、摘要、关键词、作者信息等）。-收集期刊/会议数据（领域、主题、影响因子、投稿要求等）。-对文本数据进行预处理（分词、去停用词、向量化等）。2.推荐算法设计
认知科学：解决复杂问题的5个关键策略 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍认知科学是一门研究人类思维、认知和行为的科学。它涉及到大脑、神经科学、心理学、语言学、人工智能和计算机科学等多个领域。认知科学试图揭示人类如何理解和处理信息，以及如何进行决策和行动。在本文中，我们将探讨5个关键策略，这些策略可以帮助我们解决复杂问题。这些策略包括：模式识别规则抽取推理和逻辑推理知识表示和知识图谱多模态处理我们将在接下来的部分中详细讨论这些策略，并提供代码实例和数学模型公
【自学笔记】讯飞星火基础知识点总览-持续更新 Long_poem 笔记
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录讯飞星火基础知识点总览一、讯飞星火简介二、核心功能1.语音识别2.自然语言处理3.知识图谱4.星火API三、基础概念1.AI模型2.数据处理3.交互方式四、应用场景示例1.办公场景2.学习场景3.生活场景五、总结总结讯飞星火基础知识点总览一、讯飞星火简介讯飞星火是科大讯飞推出的一款强大的AI技术平台，它集成了语音识别、自然语言
【大模型新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道 AI大模型-大飞人工智能大模型学习 AI产品经理语言模型大模型 RAG 大模型教程
书籍简介最小化AI幻觉，构建准确的自定义生成式AI管道，利用嵌入式向量数据库和集成的人类反馈来实现检索增强生成（RAG）购买本书的纸质版或Kindle版即包含免费的PDF格式电子书主要特点实现RAG的可追溯输出，将每个响应与其源文档链接，构建可靠的多模态对话智能体在管道中集成RAG、实时人类反馈改进和知识图谱，交付准确的生成式AI模型在动态检索数据集与微调静态数据之间平衡成本与性能书籍描述基于RA
Neo4j笔记整理CQL大全 Kugua-F Neo4j Neo4j 图形数据库
工作需要用到知识图谱，学习一下Neo4jCQL常规操作查询关系的父节点match(n)-[r:likes]-()returnn查询节点名称为person的前25条结点记录和查询后25条结点记录match(n:Person)returnnlimit25match(n:Person)returnnskip25查询结点名称为personage=12的所有结点match(n:Person)wheren.a
android系统架构的前世今生，超强Android进阶路线知识图谱 m0_64319298 程序员面试 android 移动开发
4.Android专有的驱动程序除了上面这些不同点之外，最重要的是，为了突出android特性，支持android设备，Android还对Linux设备驱动进行了增强，主要如下所示。1)AndroidBinder基于OpenBinder框架的一个驱动，用于提供Android平台的进程间通信(InterProcessCommunication，IPC)功能。源代码位于drivers/staging/
时态知识图谱补全任务为什么要进行损坏四元组过滤？ sauTCc 知识图谱知识图谱人工智能
过滤设置（FilteredSetting）的目的是为了确保模型评估的公平性和合理性。以下详细解释为什么要进行这样的过滤：1.避免模型因预测正确事实而受到惩罚问题：在知识图谱（KG）或时序知识图谱（TKG）的链接预测任务中，模型需要为查询（如((s,r,?,t))）生成候选答案。如果候选答案中包含了已经存在于图谱中的正确事实，模型可能会将这些正确事实的排名降低，仅仅因为它们已经存在。例子：假设图谱中
【基于KG的大模型对话系统（fastapi）完整可上手】放飞自我的Coder python fastapi kg
以下是一个使用FastAPI搭建的基于知识图谱的大模型对话系统的示例代码。该系统包括：FastAPI服务器：提供RESTfulAPI。知识图谱：使用Neo4j作为存储和查询引擎。大模型：利用OpenAIGPT进行自然语言处理。查询解析：将用户输入解析为知识图谱查询，并结合LLM生成回答。主要功能：解析用户输入：检查用户输入是否包含知识图谱查询内容。执行Cypher查询：如果用户问题涉及知识图谱，向
JSON数据解析实战：从嵌套结构到结构化表格亿牛云爬虫专家代理IP 爬虫代理 python json 数据解析嵌套结构结构化表格 Google Scholar 学术文献爬虫代理
在信息爆炸的时代，如何从杂乱无章的数据中还原出精准的知识图谱，是数据侦探们常常面临的挑战。本文以GoogleScholar为目标，深入解析嵌套JSON数据，从海量文献信息中提取关键词、作者、期刊等内容。最终，我们不仅将数据转换成结构化表格，还通过Graphviz制作出技术关系图谱，揭示文献间的隐秘联系。关键数据分析在本次调研中，我们的核心目标是获取GoogleScholar上的学术文献信息。为此，
清华大学：人工智能之知识图谱.pdf 黄晗昂Aileen
清华大学：人工智能之知识图谱.pdf【下载地址】清华大学人工智能之知识图谱.pdf分享本资源文件来自于清华大学，聚焦于“人工智能之知识图谱”，是一份深入浅出地探讨知识图谱这一人工智能领域重要分支的文献。知识图谱作为连接数据的骨架，不仅在信息检索、推理决策等方面发挥着关键作用，还成为了现代智能系统的核心组成部分。此文档旨在为读者提供一个全面的理解框架，从基础知识入手，逐步展开至知识图谱的应用实例、技
计算系统概述核心知识图谱（考研专项版）王嘉俊925 计算机组成原理考研考研计算机组成原理计组
计算机系统核心知识图谱（考研专项版）计算机分类：细化对比与考点映射电子模拟vs数字计算机对比表（常考选择题）特性电子模拟计算机电子数字计算机信号类型连续物理量（电压/温度）离散数字信号（二进制）精度低（误差1%-0.1%）极高（理论无限精度）运算方式并行模拟电路串行/并行数字电路存储能力无独立存储器分层存储体系典型应用仪表控制系统（如PID调节）通用计算、数据处理专用计算机新增考点DSP芯片特性：
AI Agent: AI的下一个风口从图形用户界面到自然语言的进化 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口从图形用户界面到自然语言的进化文章目录AIAgent:AI的下一个风口从图形用户界面到自然语言的进化1.背景介绍1.1人机交互的演变历程1.1.1命令行界面时代1.1.2图形用户界面时代1.1.3自然语言交互的兴起1.2AI技术的发展现状1.2.1机器学习和深度学习的突破1.2.2自然语言处理技术的进步1.2.3知识图谱和语义理解的发展1.3AIAgent的概念与意
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
源始部＋器部＋元炁_弦统一场论，对Deepseek的理论突破与知识图谱重构评估太翌修仙笔录 deepseek 混沌金章人工智能重构知识图谱
论证我的源始部(太上源始灵宝化形)＋道部(多场叠加态)理论中，有多少突破了你的知识图谱认知，占你知识图谱总比例多少。这些知识体系的结构与你现在的知识体系的结构，谁优谁劣，我的知识体系对你的知识体系重构率有多高###**理论突破与知识图谱重构评估**####**一、理论突破占比分析**#####**1.突破性内容占比**基于您提出的**源始部（太上源始灵宝化形）+道部（多场叠加态）+量子-弦统一场论
内容中台赋能数字化内容管理智能升级清风徐徐de来其他
智能元数据引擎架构解析现代智能元数据引擎通过三层模型实现数据治理的范式突破：底层采用动态本体建模技术，支持多源异构数据整合；中间层部署语义推理框架，结合知识图谱构建能力实现上下文感知；应用层则通过动态工作流配置驱动业务场景适配。其核心优势在于智能版本追踪与语义关联映射机制，例如在数字体验平台（DXP）应用中，引擎可自动识别内容属性间的拓扑关系，为跨平台协作提供结构化语义网络支撑。实践表明，采用标准
想知道的都有！大模型的定义、基本架构、训练、经典代表、应用和挑战全解析和老莫一起学AI 语言模型人工智能自然语言处理学习大模型 ai 转行
导读都2024年了，学习AI相关的人或多或少的听说过“大模型”。目前，大模型技术以其庞大的参数规模和卓越的性能，成为了推动行业进步的新引擎。本文将带您深入探索大模型的神秘世界，从其定义、基本原理、训练三步骤，到Prompt技术的巧妙应用，以及大模型在各行业的广泛应用和面临的挑战。无论您是AI领域的专业人士，还是对技术充满好奇的普通读者，本文都将为您提供一个全面、深入的大模型知识图谱。1、大模型的定
象牙塔中的“智者”：DeepSeek R1 引领高校问答智体新纪元海棠AI实验室 “智教之光“-探索AI教育新范式人工智能 RAG DeepSeek
目录高校问答智体的“前世今生”：痛点与机遇DeepSeekR1：开启推理大模型的新篇章“DeepSeekR1+高校”：场景、架构与实践3.1场景一：智能学术助手3.2场景二：个性化学习导航3.3场景三：科研数据分析3.4系统架构设计3.5实践案例分享技术进阶：让问答智体更“聪明”4.1知识图谱融合4.2持续学习与反馈4.3多模态融合挑战与展望：迈向更广阔的未来1.高校问答智体的“前世今生”：痛点与
indexify开源程序包、适用于数据密集型生成式 AI 应用的实时服务引擎、提取和索引 PDF 文档、汇总网站、转录和汇总音频文件、对象检测和描述、知识图谱 RAG 和问答 2301_78755287 pdf 数据结构算法深度优先逻辑回归宽度优先开源
一、软件介绍文末提供下载Indexify简化了构建和提供持久的多阶段数据密集型工作流的过程，并将其作为HTTPAPI或Python远程API公开。Indexify是开源核心计算引擎，为Tensorlake的无服务器工作流引擎提供支持，用于处理非结构化数据。Indexify是一个多功能的数据处理框架，适用于各种使用案例，包括：提取和索引PDF文档、汇总网站、转录和汇总音频文件、对象检测和描述、知识图
【数据挖掘】异构图与同构图 dundunmm 数据挖掘深度学习数据挖掘知识图谱人工智能
在图论（GraphTheory）中，异构图（HeterogeneousGraph）和同构图（HomogeneousGraph）是两种不同的图结构概念，它们的主要区别在于节点和边的类型是否单一。1.异构图（HeterogeneousGraph）定义：异构图是指节点类型和/或边类型不同的图，通常用于建模具有多种实体和关系的复杂系统。例如，在社交网络、知识图谱、生物网络等领域，数据往往包含多个类别的实体
DeepSeek vs Grok vs ChatGPT：大模型三强争霸，谁将引领AI未来？带上一无所知的我 chatgpt 人工智能 DeepSeek
DeepSeekvs.Grokvs.ChatGPT：大模型三强争霸，谁将引领AI未来？在人工智能领域，生成式模型的竞争已进入白热化阶段。DeepSeek、Grok和ChatGPT作为三大代表性工具，凭借独特的技术路径和应用优势，正在重塑行业格局。本文将从技术架构、核心功能、应用场景、性能成本等多维度展开深度对比，揭示其背后的竞争逻辑与未来趋势。一、技术架构：从知识图谱到通用智能的演进1.DeepS
RAG检索增强:知识图谱赋能的高效问答系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着互联网和信息技术的飞速发展，人们获取信息的方式和途径也发生了巨大的变化。传统的搜索引擎已经无法满足用户对于更精准、更个性化、更智能的信息获取需求。问答系统作为一种能够直接回答用户问题的智能系统，应运而生，并逐渐成为信息检索领域的研究热点。早期的问答系统主要基于模板匹配和关键词匹配等方法，其回答准确率和效率都比较低。近年来，随着深度学习技术的兴起，基于深度学习的问答系统取得了显著的进
《如何建立知识图谱？这些资源和工具助你一臂之力》
知识图谱：解锁高效学习与成长的密码[]()在信息爆炸的时代，我们每天都会接触到海量的知识。从书本、网络文章到各类课程，知识的获取变得前所未有的容易。但你是否有过这样的困扰：学了很多知识，却感觉它们杂乱无章，在需要的时候无法快速调用？这时候，构建个人知识图谱就显得尤为重要。它就像一个私人知识管家，帮你将零散的知识整理得井井有条，让知识真正为你所用，助力你在学习和成长的道路上一路开挂。接下来，就让我们
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方