qq_22244821

一文打尽知识图谱

01 序言

知识是人类在实践中认识客观世界的结晶。知识图谱（Knowledge Graph, KG）是知识工程的重要分支之一，它以符号形式结构化地描述了物理世界中的概念及其相互关系。

知识图谱的基本组成形式为<实体,关系,实体>的三元组，实体间通过关系相互联结，构成了复杂的网状知识结构。

图1 知识图谱组成复杂的网状知识结构

知识图谱从萌芽思想的提出到如今已经发展了六十多年，衍生出了许多独立的研究方向，并在众多实际工程项目和大型系统中发挥着不可替代的重要作用。

如今，知识图谱已经成为认知和人工智能日益流行的研究方向，受到学术界和工业界的高度重视。

本文对知识图谱的历史、定义、研究方向、未来发展、数据集和开源库进行了全面的梳理总结，值得收藏。

02 简史

图2 知识库简史

图2展示了知识图谱及其相关概念和系统的历史沿革，其在逻辑和人工智能领域经历了漫长的发展历程。

图形化知识表征（Knowledge Representation）的思想最早可以追溯到1956年，由Richens首先提出了语义网（Semantic Net）的概念。

逻辑符号的知识表示形式可以追溯到1959年的通用问题求解器（General Problem Solver, GPS）。

20世纪70年代，专家系统一度成为研究热点，基于知识推理和问题求解器的MYCIN系统是当时最著名的基于规则的医学诊断专家系统之一，该专家系统知识库拥有约600条医学规则。

此后，20世纪80年代早期，知识表征经历了Frame-based Languages、KL-ONE Frame Language的混合发展时期。

大约在这个时期结束时的1984年，Cyc项目出现了，该项目最开始的目标是将上百万条知识编码成机器可用的形式，用以表示人类常识，为此专门设计了专用的知识表示语言CycL，这种知识表示语言是基于一阶关系的。该项目有极大的野心，但是手动录入、概念属性模糊等缺陷也遭受了许多非议。

20世纪末，资源描述框架（Resource description framework, RDF）、Web本体语言（Web Ontology Language, OWL）相继发布，成为语义网的重要标准。随后，越来越多开放的知识库或本体陆续发布，例如WordNet、DBpedia、YAGO和Freebase。

2012年，知识图谱这一概念由Google首次提出并得到广泛接受，更多通用领域和特定领域的知识图谱相继发布。

自此，知识图谱逐渐成为一个独立的研究领域，得到学术界和工业界的极大重视，并由此推动了包括知识表征、知识获取、知识推理、知识应用的研究，在自然语言处理、人工智能及其他交叉领域里发光发亮。

03 定义

学术界目前缺乏一个被普遍接受的严格定义，大多数定义是通过形式化描述知识图谱的一般语义表示或基础特征来给出定义。下面提供两条相对准确的定义以供参考。

定义1（Ehrlinger et al.）：A knowledge graph acquires and integrates information into an ontology and applies a reasoner to derive new knowledge. 知识图谱获取信息并将其集成到本体中，并应用推理器来获取新知识。

定义2（Wang et al.）：A knowledge graph is a multi-relational graph composed of entities and relations which are regarded as nodes and different types of edges, respectively. 知识图谱是由实体和关系组成的多关系图，实体和关系分别被视为节点和不同类型的边。

04 符号描述

表1 知识图谱中常见的符号描述

05 研究方向

知识图谱目前的研究方向可以大致分为四类：知识表征学习（Knowledge Represent Learning, KRL）、知识获取（Knowledge Acquisition）、时序知识图谱（Temporal Knowledge Graph, TKG）和应用（Knowledge-aware Applications）。

图3展示了知识图谱的主要研究方向分支图，图中详细罗列了相关领域的承继关系。

图3 知识图谱的主要研究方向分支图

知识表征学习 Knowledge Represent Learning(KRL)

知识表征学习KRL也称为KGE、多关系学习、统计关系学习，是知识图谱的一个关键研究问题，它为许多知识获取任务和下游应用铺平了道路。

我们可以将KRL分为四个方面，为开发KRL模型提供清晰的工作流程。具体包括：

（1）表征空间：关系和实体的空间分布表示；

（2）评分函数：用于衡量事实三元组合理性的评分；

（3）编码模型：将表征进行编码；

（4）辅助信息：嵌入到方法中的其他相关信息。

表征空间 Representation Space

表征学习的关键问题是学习实体和关系的低维分布嵌入（embedding）。目前的研究主要采用以下几种空间及其变种：

图4 不同空间中的知识表示示意图

（1）Point-wise空间（图4a）：被广泛应用于表示实体和关系，通过投影关系嵌入向量或矩阵空间，捕获交互关系。一般数学形式为向量、矩阵和张量。

（2）复向量空间（图4b）：实体和关系不使用实值空间，而是在复空间中表示。

（3）高斯分布（图4c）：受Gaussian word embedding的启发，基于密度的嵌入模型引入了高斯分布来处理实体和关系的确定性或非确定性。

（4）Manifold空间（图4d）：是一个拓扑空间，可以通过集合论定义为一组具有邻域的点。此空间可以从几何角度对问题进行描述，增强表现力和解释性。但对数学有较高的要求。

此外，嵌入空间需遵循三个条件，即函数的可微性、计算的可行性和可定义性。

评分函数 Scoring Function

有两种典型的评分函数，基于距离（图5a）和基于相似度（图5b）的函数。

图5 基于距离和基于相似度匹配的评分函数示意图

编码模型 Encoding Models

这里的编码模型指通过特定模型架构对实体和关系的交互进行编码的模型。模型包括线性/双线性（linear/bilinear）模型、分解（factorization）模型和神经网络（neural network）模型。

（1）线性模型：通过将头部实体投影到靠近尾部实体的表征空间中，将关系表述为线性或双线性映射。

（2）分解模型：旨在将关系数据分解为低秩矩阵以进行表征学习。

（3）神经网络模型：是目前绝对主流的研究方向，其通过匹配实体和关系的语义相似性，对具有非线性神经激活和更复杂网络结构的关系数据进行端到端地编码。

图6 典型神经网络编码模型

典型的神经网络模型如图6所示：

CNN（图4a）：将三元组输入到dense layer和卷积层（convolution layer）以学习语义表征。

GCN（图4b）：充当知识图谱的编码器以生成实体和关系嵌入。

RSN（图4c）：编码实体关系序列并有区别地跳过部分关系。

Transformer（图4d）：将三元组编码为序列，其中一个实体被[MASK]替换。

目前的研究普遍会采用以上列举的骨干（Backbone）网络作为基础进行堆叠重组，构成适合每个特定任务的网络再进行实验。

辅助信息嵌入 Embedding with Auxiliary Information

辅助信息往往以多模态嵌入的形式将诸如文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来，以促进更有效的知识表征。

（1）文本描述：知识图谱中的实体具有文本描述，一般表示为集合形式，提供补充的语义信息。KRL在文本描述嵌入的挑战主要是如何将结构化知识和非结构化文本信息一同嵌入到同一表征空间中。因此，学者进行了深入研究。

Wang等人：通过引入实体名称和维基百科锚点，提出了两种对齐模型，用于对齐实体空间和单词空间。

DKRL：扩展了TransE网络，以通过卷积编码器直接从实体描述中学习表征。

SSP：通过将三元组和文本描述投影到语义子空间中来捕捉它们之间的强相关性。

（2）类型信息：实体具有的类型属性。有许多方法可以用来做嵌入，比如：

SSE：结合实体的语义类别，将属于同一类别的实体平滑地嵌入到语义空间中。

TKRL：提出了用于实体投影矩阵的类型编码器模型以捕获类型层次结构。

KREAR：结合一些关系表示的实体属性，将关系类型分类为属性和关系，并对实体描述之间的相关性进行建模。

Zhang等人：用关系簇、关系和子关系的层次关系结构扩展了现有的嵌入方法。

（3）视觉信息：可用于丰富KRL，包括实体图像。典型方法有：

IKRL：包含基于跨模态结构和基于图像的表征，将图像编码到实体空间。跨模态表征确保基于结构和基于图像的表征融合在相同的表征空间中。

（4）不确定信息：ProBase、NELL和ConceptNet等知识图谱包含不确定信息，并为每个相关事实分配了置信度分数。与经典的确定性知识图谱嵌入相比，不确定嵌入模型旨在捕获表征关系的不确定性。由此产生了一些结合不确定信息的方法，包括：

Chen等人：提出了一种不确定的知识图谱嵌入模型，以同时保留结构和不确定性信息。其应用概率软逻辑来推断置信度得分，概率校准采用后处理过程来调整概率分数，使预测具有概率意义。

Tabacof等人：首次研究了封闭世界假设下知识图谱嵌入的概率校准情况，揭示了良好校准的模型可以提高模型准确性。

Safavi等人：在更具挑战性的开放世界假设下进一步探索了概率校准的情况。

知识获取 Knowledge Acquisition

知识获取旨在从非结构化文本和其他结构化或半结构化源中构建知识图谱，补全现有的知识图谱，发现和识别实体和关系。构建良好的大规模知识图谱可用于许多下游应用程序，并通过常识推理为Knowledge-aware模型提供支持，从而为人工智能铺平道路。

知识获取的主要任务包括知识图谱补全、实体识别、实体对齐、关系抽取等面向实体的获取任务。

大多数方法分别实现知识图谱补全和关系提取两个任务。当然，这两个任务也可以集成到一个统一的框架中，如Han等人提出了一种联合学习框架，用于知识图谱和文本之间的数据融合，解决了知识图谱补全如何从文本中提取关系的问题。

还有其他与知识获取相关的任务，例如三重分类（triple classification）、关系分类（relation classification）和开放知识富集（open knowledge enrichment）等等，感兴趣的可以自行查阅相关文献资料。

知识图谱补全 Knowledge Graph Completion(KGC)

由于知识图谱往往不完整，需要持续向知识图谱添加新的三元组，也需要通过现有图谱推断出缺失的实体或者关系，所以就有了知识图谱补全任务，即KGC。

该任务有几个典型的子任务，包括链接预测、实体预测和关系预测，衍生出了包括基于嵌入的模型、关系路径推理、基于强化学习的寻路、基于规则的推理、元关系学习和Triple分类等子分支。

图7 基于嵌入的排序（左图）和关系路径推理（右图）

（1）基于嵌入的模型：如图7（左）所示，以实体预测为例，基于嵌入的排序方法首先基于现有的三元组学习嵌入向量，通过用每个实体替换尾部实体或头部实体的办法计算所有候选实体的分数，并对前个实体进行排名。

基于嵌入的方法通常依赖表征学习来捕获语义并进行候选排序来完成任务，其基于的嵌入推理停留在个体关系层面，忽略了知识图谱的符号性，缺乏可解释性，在复杂推理方面表现不佳。

（2）关系路径推理：实体和关系的嵌入学习在一些基准测试中获得了显著的性能提升，但它无法对复杂的关系路径进行建模。关系路径推理依赖于图结构上的路径信息。

目前，随机游走推理方法已被广泛研究，例如，路径排序算法（Path-Ranking Algorithm, PRA）是在路径组合约束下选择关系路径并进行最大似然分类，具有较强的推理能力。

（3）基于强化学习的寻路：一般将实体对之间的寻路（路径查找）设定为顺序决策任务，如经典的马尔可夫决策过程(MDP)，为多跳（hop）推理引入深度强化学习(Reinforcement Learning, RL)方法。

基于策略的Agent通过知识图谱Environment之间的交互来学习并找到与扩展推理路径相关的步骤，其中策略梯度用于训练Agent。

（4）基于规则的推理：逻辑规则是一种辅助信息，可以通过AMIE等规则挖掘工具提取。同时，它可以结合先验知识，实现可解释的多跳推理能力，并为泛化铺平道路，即使在少样本标记的关系三元组中也是如此。

然而，单独的逻辑规则只能覆盖知识图谱中有限数量的关系事实，并存在巨大的搜索空间。可以将神经网络和符号计算进行结合，它们之间具有互补优势，利用高效的数据驱动学习和进行可微优化，并利用先验逻辑知识进行精确且可解释的推理。

将基于规则的学习结合到知识表征中为表征提供正则化或约束以解决问题是个很好的思路。然而，当遍历大规模图时，它们会出现连通性不足的缺点。

（5）元关系学习：长尾现象广泛存在于知识图谱的关系中，且现实世界的知识场景是动态的。针对这一新场景，学者们提出了元关系学习（或称少样本关系学习）方法，其需要模型仅用很少的样本来预测新的关系事实。

（6）Triple分类：Triple分类是KGC的一项相关任务， Triple分类是在测试数据中判断三元组事实是否正确，通常被认为是一个二分类问题。

实体发现 Entity Discovery

实体发现任务是从文本中获取面向实体的知识，并在知识图谱之间融合知识。可以划分为几个子任务，即实体识别、实体类型标记、实体消歧和实体对齐。我们将其统称为实体发现，因为它们都在不同的配置下探索与实体相关的知识。

（1）实体识别（Entity Recognition）：实体识别通常狭义定义为命名实体识别（Named Entity Recognition, NER），该任务专注于在文本中标记出特定命名的实体。

堆叠网络：最近的工作常用sequence-to-sequence的神经网络架构，如LSTM-CNN用于学习字符级和单词级特征。此外还有LSTM的变种，比如堆叠LSTM层和CRF层组合的LSTM-CRF和Stack-LSTM等。如图8左所示。

MGNER：提出了一个集成框架，该框架具有各种粒度的实体位置检测和基于注意力的实体分类，适用于嵌套和非重叠命名实体。

（2）实体类型标记（Entity Typing）：实体类型标记包括标注粗粒度类型和细粒度类型，后者使用树结构的类型类别，通常被视为多类和多标签分类。

PLE：为了减少标签噪声，该模型专注于正确的类型识别，并提出了一种带有异构图的部分标签嵌入模型，用于表示实体提及（mention）、文本特征和实体类型及其关系。

Ma等人：为了解决噪音标签的日益增长问题，提出了原型驱动的标签嵌入，其中包含用于零样本细粒度命名实体类型的分层信息。

JOIE：学习实例视图和本体视图的联合嵌入，并将实体类型表述为top-k排名以预测相关概念。

ConnectE：探索局部类型和全局三元组知识的关系以增强联合嵌入学习效果。

图8 LSTM-CRF实体识别任务（左图）和实体对齐任务（右图）

（3）实体消歧（Entity Disambiguation）：实体消歧或实体链接是将实体提及链接到知识图谱中相应实体进行统一的任务。例如，爱因斯坦在1921年获得诺贝尔物理学奖。“爱因斯坦”的实体提及应该与阿尔伯特·爱因斯坦的实体联系起来。目前，端到端学习方法为通过实体和提及的表征学习提供了有力支持：

DSRM：用于建模实体语义相关性的模型。

EDKate：用于实体和文本的联合嵌入的模型。

Ganea等人：提出了一种在局部上下文窗口上的注意力神经网络模型，用于实体嵌入学习和用于推断模糊实体的可微消息传递。

Le等人：通过将实体之间的关系视为潜在变量，开发了一种端到端的神经网络架构，使关系和提及规范化。

（4）实体对齐（Entity Alignment, EA）：如前所述，这些任务涉及从文本或单个知识图谱中发现实体，而实体对齐旨在融合各种知识图谱之间的知识。

关系抽取 Relation Extraction(RE)

关系提取是通过从纯文本中提取未知的关系事实并将其添加到知识图中来，以自动构建大规模知识图谱的任务。

由于缺乏标记的关系数据，远程监督（distant supervision），也称为弱监督或自监督，通过假设包含相同实体提及的句子在监督下可能表达相同的关系，使用启发式匹配来创建训练数据的关系数据库。

传统方法高度依赖特征工程，最新的方法采用深度神经网络探索特征之间的内在相关性。

在远程监督的假设下，关系提取会受到噪声的影响，尤其是在不同领域的文本语料库中。因此，弱监督关系提取必须减轻噪声标签的影响。

例如，多实例学习（MIL）将词袋（Bag-of-Words, BoW）作为输入，注意力机制（Attention Mechanism）通过对实例的软选择来减少噪声，而基于RL的方法将实例选择设定为硬决策。

另一个原则是尽可能学习更丰富的表示。由于深度神经网络（DNN）可以解决传统特征提取方法中的错误传播，因此该领域主要由基于DNN的模型主导。

（1）神经关系提取：神经网络广泛应用于NRE任务。

CNN：将相对实体距离的位置特征和关系分类信息输入具有多尺度卷积CNN中进行关系提取。

多实例学习（MIL）：以词袋作为输入来预测实体对的关系。

PCNN：在以实体位置的卷积表示的片段上应用分段最大池化。与普通相比，PCNN可以更有效地捕获实体对内部的结构信息。

MIMLCNN：进一步将PCNN扩展到具有跨句子最大池化的多标签学习以进行特征选择。还利用了诸如类关系和关系路径之类的辅助信息。

SDP-LSTM：采用多通道LSTM，同时利用实体对之间的最短依赖路径。

Miwa等人：构建了基于依赖树堆叠顺序和树结构的LSTM。

BRCNN：将用于捕获顺序依赖关系的RNN与用于使用双通道双向LSTM和CNN表示局部语义的CNN相结合。

（2）注意力机制：注意力机制的许多变体与CNN相结合，包括用于捕获单词语义信息的单词级注意力和对多个实例的选择性注意力以减轻噪声实例的影响。此外，还引入了其他辅助信息以丰富语义表示：

APCNN：引入了PCNN的实体描述和句子级注意。

HATT：提出了分层选择性注意，通过连接每个分层的注意表征来捕获关系层次。

Att-BLSTM：该模型不是基于CNN的句子编码器，而是使用BiLSTM提出词级注意力。

Soares等人：利用了来自深度Transformers模型的预训练关系表示。

（3）图卷积网络（GCN）：GCN用于编码句子上的依赖树或学习KGE以利用关系知识进行句子编码。

C-GCN：是一个上下文相关的GCN模型，它以路径为中心，运用句子级的剪枝依赖树。

AGGCN：也将GCN应用于依赖树，但利用多头注意力以soft weighting方式进行边缘选择。

Zhang等人：与之前两个基于GCN的模型不同，其将GCN应用于知识图谱中的关系嵌入，用于基于句子的关系提取。作者进一步提出了一种从粗到细的知识感知注意机制，用于选择信息实例。

（4）对抗训练：对抗训练（Adversarial Training, AT）用于在多实例多标签学习（MIML）中将对抗性噪声添加到词嵌入中，以进行基于CNN和RNN的关系提取。典型的有：

DSGAN：通过学习句子级真阳性样本的生成器和最小化生成器真阳性概率的鉴别器来对远程监督关系提取进行去噪。

（5）强化学习：最近，通过使用策略网络训练实例选择器，RL已被集成到神经关系提取中。

Qin等人：提出训练基于策略的Agent句子关系分类器，将误报实例重新分配到负样本中，以减轻噪声数据的影响。作者将F1分数作为评估指标，并使用基于F1分数的性能变化作为对策略网络的奖励。

Zeng等人：提出了另外一种不同的奖励策略。

HRL：提出了一种高层关系检测和低层实体提取的分层策略学习框架。

基于RL的NRE的优点是关系提取器与模型无关。因此，它可以很容易地适应任何神经架构以进行有效的关系提取。

（6）其他进展：深度学习的其他进展也可以应用于神经关系提取。

Huang等人：将深度残差学习应用于噪声关系提取，发现9层CNN的配置，性能有所提高。

Liu等人：提出通过实体分类的迁移学习来初始化神经模型有效提高准确率。

协作CORD：通过双向知识蒸馏和自适应模仿，将文本语料库和知识图谱与外部逻辑规则相结合。

TK-MF：通过匹配句子和主题词来丰富句子表征学习。

Shahbazi等人：通过对几种解释机制进行基准测试来研究可信关系提取，包括显着性、梯度×输入和leave one out。

（7）联合提取：传统的关系提取模型采用首先提取实体提及然后对关系进行分类的流水线方法来完成任务。但是，流水线方法可能会导致错误累积。几项研究表明，联合学习的性能优于传统的流水线方法。

Katiyar等人：提出了一个基于注意力的LSTM网络的联合提取框架。

一些方法将联合提取转换为不同的问题，例如通过新的标记方案和多轮问答进行序列标记。但是在处理实体对和关系重叠方面仍然存在挑战。

Wei等人：提出了一个级联二进制标记框架，将关系建模为主体-对象映射函数来解决重叠问题。

时序知识图谱 Temporal Knowledge Graph(TKG)

时序信息嵌入 Temporal Information Embedding

动态实体 Entity Dynamics

现实世界的事件会改变实体的状态，从而影响相应的关系。为了改进时序范围推断，上下文时序范围轮廓模型（contextual temporal profile model）将Temporal scope问题表述为状态变化检测，并利用上下文来学习状态和状态变化向量。

Goel等人：将实体和时间戳作为实体嵌入函数的输入，以保留实体在任何时间点的时序感知特性。

Know-evolve：是一个深度进化知识网络，研究实体的知识进化现象及其进化关系。使用多元时间点过程对事实的发生进行建模，并开发了一种新的循环网络来学习非线性时序演化表示。

RE-NET：为了捕获节点之间的交互信息，通过基于RNN的事件编码器和邻域聚合器对事件序列进行建模。具体来说，RNN用于捕获时间实体交互，邻域聚合器聚合并发交互。

时序关系依赖 Temporal Relational Dependency

关系链中存在时间依赖关系，例如，wasBornIn→graduateFrom→workAt→deadIn。

时序逻辑推理 Temporal Logical Reasoning

逻辑规则也被用于进行时序推理。

Chekol等人：探索了马尔可夫逻辑网络和概率软逻辑，用于对不确定的时间知识图谱进行推理。

RLvLR-Stream：考虑时间闭合路径规则，并从知识图谱流中学习规则结构进行推理。

应用 Knowledge-aware Applications

丰富的结构化知识可用于AI应用程序。然而，如何将这些符号知识整合到现实世界应用程序的计算框架中仍然是一个挑战。

知识图谱的应用包括两个方面：

（1）in-KG应用：如链接预测、命名实体识别等；

（2）out-of-KG应用程序：包括关系提取和更多下游知识感知应用程序，例如问答和推荐系统。

语言表征学习 Language Representation Learning

通过自监督语言模型预训练的语言表征学习已经成为许多NLP系统的一个组成部分。传统的语言建模不利用文本语料库中经常观察到的实体事实，如何将知识整合到语言表征中已引起越来越多的关注。

知识图谱语言模型（KGLM）：通过选择和复制实体来学习并呈现知识。

ERNIE-Tsinghua：通过聚合的预训练和随机Mask来融合信息实体。

K-BERT：将领域知识注入BERT上下文编码器。

ERNIE-Baidu：引入了命名实体Mask和短语Mask以将知识集成到语言模型中，并由ERNIE 2.0通过持续的多任务学习进一步改进。

KEPLER：为了从文本中获取事实知识，通过联合优化将知识嵌入和Mask语言建模损失相结合。

GLM：提出了一种图引导的实体Mask方案来隐式地利用知识图谱。

CoLAKE：通过统一的词-知识图谱和改进的Transformer编码器进一步利用了实体的上下文。

BERT-MK：与K-BERT模型类似，更专注于医学语料库，通过知识子图将医学知识集成到预训练语言模型中。

Petroni等人：重新思考语言模型的大规模训练和知识图谱查询，分析了语言模型和知识库，他们发现可以通过预训练语言模型获得某些事实知识。

问答 Question Answering

基于知识图谱的问答（KG-QA）用知识图谱中的事实回答自然语言问题。基于神经网络的方法表示分布式语义空间中的问题和答案，有些方法还进行符号知识注入以进行常识推理。

Single-fact QA：以知识图谱为外部知识源，simple factoid QA或single-fact QA是回答一个涉及单个知识图谱事实的简单问题。

Dai等人：提出了一种条件聚焦神经网络，配备聚焦修剪以减少搜索空间。

BAMnet：使用双向注意机制对问题和知识图谱之间的双向交互进行建模。尽管深度学习技术在KG-QA中得到了广泛应用，但它们不可避免地增加了模型的复杂性。

Mohammed等人：通过评估有和没有神经网络的简单KG-QA，发现复杂的深度模型（如LSTM和GRU等启发式算法）达到了最先进的水平，非神经模型也获得了相当好的性能。

多跳推理（Multi-hop Reasoning）：处理复杂的多跳关系需要更专门的设计才能进行多跳常识推理。结构化知识提供了信息丰富的常识，这促进了最近关于多跳推理的符号空间和语义空间之间的常识知识融合的研究。

Bauer等人：提出了多跳双向注意力和指针生成器（pointer-generator）解码器，用于有效的多跳推理和连贯的答案生成，利用来自ConceptNet的relational path selection和selectively-gated注意力注入的外部常识知识。

Variational Reasoning Network(VRN)：使用reasoning-graph嵌入进行多跳逻辑推理，同时处理主题实体识别中的不确定性。

KagNet：执行concept recognition以从ConceptNet构建模式图，并通过GCN、LSTM和hierarchical path-based attention学习基于路径的关系表示。

CogQA：结合了implicit extraction和explicit reasoning，提出了一种基于BERT和GNN的认知图模型，用于多跳QA。

推荐系统 Recommender Systems

将知识图谱集成为外部信息，使推荐系统具备常识推理能力，具有解决稀疏问题和冷启动问题的潜力。通过注入实体、关系和属性等知识图谱的辅助信息，许多方法致力于使用基于嵌入的正则化模块以改进推荐效果。

collaborative CKE：通过平移KGE模型和堆叠自动编码器联合训练KGE、文本信息和视觉内容。

DKN：注意到时间敏感和主题敏感的新闻文章由大量密集的实体和常识组成，通过知识感知CNN模型将知识图谱与多通道word-entity-aligned文本输入相结合。但是，DKN不能以端到端的方式进行训练，因为它需要提前学习实体嵌入。

MKR：为了实现端到端训练，通过共享潜在特征和建模高阶项目-实体交互，将多任务知识图谱表示和推荐相关联。

KPRN：虽然其他工作考虑了知识图谱的关系路径和结构，但KPRN将用户和项目之间的交互视为知识图谱中的实体关系路径，并使用LSTM对路径进行偏好推断以捕获顺序依赖关系。

PGPR：在基于知识图谱的user-item交互上执行reinforcement policy-guided的路径推理。

KGAT：在entity-relation和user-item图的协作知识图谱上应用图注意力网络，通过嵌入传播和基于注意力的聚合对高阶连接进行编码。

总而言之，基于知识图的推荐本质上是通过在知识图谱中嵌入传播与多跳来处理可解释性。

文本分类和特定任务应用程序 Text Classification and Task-Specific Applications

知识驱动的自然语言理解（NLU）是通过将结构化知识注入统一的语义空间来增强语言表征能力。最近成果利用了明确的事实知识和隐含的语言表征。

Wang等人：通过加权的word-concept嵌入，通过基于知识的conceptualization增强了短文本表征学习。

Peng等人：集成了外部知识库，以构建异构信息图谱，用于短社交文本中的事件分类。

在精神卫生领域，具有知识图谱的模型有助于更好地了解精神状况和精神障碍的危险因素，并可有效预防精神健康导致的自杀。

Gaurs等人：开发了一个基于规则的分类器，用于知识驱动的自杀风险评估，其中结合了医学知识库和自杀本体的自杀风险严重程度词典。

情感分析与情感相关概念相结合，可以更好地理解人们的观点和情感。

SenticNet：学习用于情感分析的概念原语，也可以用作常识知识源。为了实现与情感相关的信息过滤。

Sentic LSTM：将知识概念注入到vanilla LSTM中，并为概念级别的输出设计了一个知识输出门，作为对词级别的补充。

对话系统 Dialogue Systems

问答（QA）也可以被视为通过生成正确答案作为响应的单轮对话系统，而对话系统考虑对话序列并旨在生成流畅的响应以通过语义增强和知识图谱游走来实现多轮对话。

Liu等人：在编码器-解码器框架下，通过知识图谱检索和图注意机制对知识进行编码以增强语义表征并生成知识驱动的响应。

DialKG Walker：遍历符号知识图谱以学习对话中的上下文转换，并使用注意力图路径解码器预测实体响应。

通过形式逻辑表示的语义解析是对话系统的另一个方向。

Dialog-to-Action：是一种编码器-解码器方法，通过预定义一组基本动作，它从对话中的话语映射可执行的逻辑形式，以在语法引导解码器的控制下生成动作序列。

医学和生物学 Medicine and Biology

知识驱动的模型及其应用为整合领域知识以在医学和生物学领域进行精确预测铺平了道路。医学应用涉及有众多医学概念的特定领域知识图谱。

Sousa等人：采用知识图谱相似性进行蛋白质-蛋白质相互作用预测，使用基因本体。

Mohamed等人：将药物-靶点相互作用预测设定为生物医学知识图谱中与药物及其潜在靶点的链接预测。

Lin等人：开发了一个知识图谱网络来学习药物-药物相互作用预测的结构信息和语义关系。

UMLS：在临床领域，来自Unified Medical Language Systems(UMLS)本体的生物医学知识被集成到语言模型预训练中，用于临床实体识别和医学语言推理等下游临床应用。

Liu等人：设定了医学图像报告生成的任务，包括编码、检索和释义三个步骤。

其他应用

还有许多其他应用程序利用以知识驱动的方法。

（1）学术搜索引擎帮助研究找到相关的学术论文

Xiong等人：提出了带有知识图谱嵌入的显式语义排序，以帮助学术搜索更好地理解查询到的概念的含义。

（2）零样本图像分类受益于知识图谱传播和类的语义描述

Wang等人：提出了一种多层GCN，使用类别和类别关系的语义嵌入来学习零样本分类器。

APNet：使用类别图传播属性表征。

（3）文本生成，组成连贯的多句文本。

Koncel-Kedziorski等人：研究了信息提取系统的文本生成，并提出了一种图谱转换编码器，用于从知识图谱生成图谱到文本的映射，侧重于解决生成自然语言的问题。

Seyler等人：通过在知识图谱上生成结构化查询，同时估计了问题的难度，研究了测验式知识问题的生成。然而，为了表达这个问题，作者使用了基于模板的方法，这可能会限制生成更自然的表达方式。

06 未来发展方向

古往今来，众多学者已经进行了许多工作来应对知识图谱及其相关应用的挑战。然而，仍然存在一些开放性问题值得解决，是未来的研究方向。

复杂推理 Complex Reasoning

知识表征和推理的数值计算需要一个连续的向量空间来捕捉实体和关系的语义。虽然基于嵌入的方法在复杂的逻辑推理上存在局限性，但关系路径和符号逻辑两个方向值得进一步探索。

一些有前途的方法，如循环关系路径编码、基于GNN的知识图谱传递消息以及基于强化学习的寻路和推理，正在用于处理复杂的推理。对于逻辑规则和嵌入的组合，最新的工作将马尔可夫逻辑网络与KGE相结合，旨在利用逻辑规则并处理其不确定性。

通过有效嵌入来实现概率推理以捕获不确定性和领域知识将是一个值得注意的研究方向。

统一框架 Unified Framework

知识图谱上的几种表征学习模型已被验证为等价，例如，Hayshi和Shimbo证明了HolE和ComplEx模型在具有特定约束的链接预测方面在数学上是等价的。

ANALOGY：提供了几个代表性模型的统一视图，包括DistMult、ComplEx和HolE。

Wang等人：探索了几个双线性模型之间的联系。

Chandrahas等人：探索了加法和乘法KRL模型的几何理解。

Han等人：将不同模型放在同一个框架下，并提出了一种相互关注的联合学习框架，用于知识图谱和文本之间的信息共享。

目前，对知识表征和推理的统一理解研究仍然较少，但是却很有价值。

可解释性 Interpretability

知识表征的可解释性是知识获取和实际应用的一个重要问题。研究人员已经为可解释性做出了初步努力。

ITransF：使用稀疏向量进行知识转移并通过注意力可视化进行解释。

CrossE：通过使用基于嵌入的路径搜索来为链接预测生成解释，探索了知识图谱的解释方案。

然而，最近提出的神经网络模型取得了很高的性能指标，但是在透明度和可解释性方面仍然存在局限性。一些方法通过使用逻辑规则使神经模型和符号推理相结合提供一定可解释性。

可解释性可以说服人们相信模型的预测，因此，未来工作应该更多地提高可解释性，也相当于提高了预测知识的可靠性。

可扩展性 Scalability

可扩展性在大规模知识图谱中至关重要。计算效率和模型表达能力之间需要权衡，极少有工作是在超过100万个实体的知识图谱上进行的。

几种嵌入方法可以用来简化计算，降低计算成本，例如使用循环相关运算来简化张量积。然而，这些方法仍然难以扩展到数百万个实体和关系。

使用马尔可夫逻辑网络的概率逻辑推理是计算密集型的，因此很难扩展到大规模的知识图谱。最新的神经逻辑模型中的规则是通过简单的蛮力搜索生成的，这使得它在大规模知识图谱上更为力不从心。

要处理繁琐的深层架构和日益增长的知识图谱，还有很长的路要走。

知识聚合 Knowledge Aggregation

全球知识的聚合是以知识作为驱动的应用的核心。例如，推荐系统使用知识图对user-item交互和文本分类进行联合建模，将文本和知识图谱编码到语义空间中。当前大多数知识聚合方法都使用了神经网络架构，如注意力机制和GNN。

Transformer和BERT大规模预训练模型及其变体极大地推动了自然语言处理的发展。

同时，最新的一项研究表明，对非结构化文本进行预训练的语言模型可以获得一定的事实知识，大规模的预训练可以作为一种直接的知识注入后续任务。然而，知识聚合仍然需要有效且可解释，不能用大模型蛮干。

自动构建与动态生成 Automatic Construction and Dynamics

当前的知识图谱高度依赖人工构建，这是劳动密集型且经济成本高的工作。知识图谱在不同认知智能领域的广泛应用需要从大规模非结构化内容中自动构建知识图谱。

最新的研究主要是在现有知识图谱的监督下进行半自动构建。面对多模态、异构性和大规模应用，自动化构建仍然具有很大的挑战。

主流研究集中在静态知识图谱上，在预测Temporal scope有效性和学习时间信息和动态实体方面工作较少。许多事实只在特定时期内成立，动态知识图谱与捕捉动态的学习算法一起，可以通过考虑时间性质来解决传统知识表征和推理的局限性。

07 数据集

目前，许多公共数据集已经发布于网络。这里对通用领域、特定领域、特定任务和时序数据集进行简单介绍和总结。

通用领域数据集

具有通用本体知识的数据集包括WordNet、Cyc、DBpedia、YAGO、Freebase、NELL和Wikidata。很难在一个表中比较它们，因为它们的本体是不同的。因此，表2中仅展示了它们的规模，此外，它们的数量仍在继续变化。

表2 通用领域数据集的统计信息

WordNet：于1995年首次发布，是一个包含约11万个同义词集的词汇数据库。

DBpedia：是从Wikipedia中提取的社区驱动的数据集。它包含1.03亿个三元组。

YAGO：为解决单源本体知识覆盖率低、质量低的问题，利用维基百科分类页面中的概念信息和WordNet中概念的层次信息，构建了覆盖率高、质量高的多源数据集。此外，它可以通过其他知识源进行扩展。它目前可在线获得超过1000万个实体和1.2亿个事实。

Freebase：是一个可扩展的知识库，于2008年出现，用于存储世界知识。它目前的三元组数量为19亿。

NELL：是通过一个名为Never-Ending Language Learner的智能代理从Web构建的，具有很高的置信度。

Wikidata：是一个免费的结构化知识库，由人工编辑创建和维护。它是多语言的，有358种不同的语言。

上述数据集由社区或研究机构公开发布和维护。此外，还有一些商业数据集。

Cycorp的Cyc知识库：包含大约150万个一般概念和超过2000万条一般规则，一个名为OpenCyc的可访问版本已于2017年弃用。

Google知识图谱：包含超过5亿个实体和35亿个事实和关系。

Microsoft知识图谱：Microsoft构建了一个称为Probase的知识库，其中包含270万个概念。

特定领域数据集

各个行业专业人士设计和收集了其特定领域的一些知识库来评估特定领域的任务。一些值得注意的领域包括生命科学、医疗保健和科学研究，这些库中囊括了复杂的领域和关系，例如化合物、疾病和组织。常见的医学类知识图谱如下表所示：

表3 医学数据集摘要

特定任务数据集

生成特定于任务的数据集的一种流行方法是从大型通用数据集中采样子集。表4列出了知识图谱本身任务的几个数据集的统计数据。

表4 知识图谱本身任务的数据集摘要

对于带有辅助信息的KRL和其他下游应用，还收集文本和图像，例如带有采样图像的WN18-IMG和包括SemEval 2010数据集、NYT和Google-RE的文本关系提取数据集。

IsaCore：是Probase的一个analogical closure，用于意见挖掘和情感分析，是通过公共知识库混合和多维缩放构建的。

FewRel数据集：用以评估新兴的少样本关系分类任务。

还有更多用于特定任务的数据集，例如用于实体对齐的跨语言DBP15K和DWY100K，带有实例和本体的YAGO26K-906和DB111K-174的多视图知识图谱等等。

开源库

最近的研究推动了开源运动，表5中列出了常见的几个开源库。

表5 开源库列表

AmpliGraph：用于知识表征学习。

Grakn：用于集成知识图谱与机器学习技术。

Akutan：用于知识图谱存储和查询。

研究界还发布了代码以促进进一步的研究。值得注意的是，有三个有用的工具包，即用于知识图嵌入的scikit-kge和OpenKE，以及用于关系提取的OpenNRE。

更多资料可以查看链接：https://shaoxiongji.github.io/knowledge-graphs/，该链接提供了知识图谱出版物的在线集合，以及它们的一些开源实现的链接。

图9 关于知识图谱的精选研究集

08 简史

随着知识表征学习、知识获取方法和各种知识驱动应用的出现，知识图谱引起了越来越多的研究者关注。

全文全面回顾了知识图谱的历史沿革、重要定义和符号描述，重点对四个重要研究方向知识表征学习、知识获取、时序知识图谱及相关应用进行了全面介绍。此外，还介绍和讨论了一些有用的数据集和开源库资源及未来的研究方向。

如今，知识图谱拥有着庞大的研究社区，拥有大量重要的方法和应用，期待未来对其的进一步研究可以带给我们更美好的生活。

参考文献

[1] S. Ji, S. Pan, E. Cambria, P. Marttinen, P. S. Yu, "A survey on knowledge graphs: Representation, acquisition and applications," arXiv preprint arXiv:2002.00388, 2020.

[2] M. Nickel, K. Murphy, V. Tresp, and E. Gabrilovich, “A review of relational machine learning for knowledge graphs,” Proceedings of the IEEE, vol. 104, no. 1, pp. 11–33, 2016.

[3] Q. Wang, Z. Mao, B. Wang, and L. Guo, “Knowledge graph embedding: A survey of approaches and applications,” IEEE TKDE, vol. 29, no. 12, pp. 2724–2743, 2017.

[4] Y. Lin, X. Han, R. Xie, Z. Liu, and M. Sun, “Knowledge representation learning: A quantitative review,” arXiv preprint arXiv:1812.10901, 2018.

[5] H. Paulheim, “Knowledge graph refinement: A survey of approaches and evaluation methods,” Semantic web, vol. 8, no. 3, pp. 489–508, 2017.

[6] T. Wu, G. Qi, C. Li, and M. Wang, “A survey of techniques for constructing chinese knowledge graphs and their applications,” Sustainability, vol. 10, no. 9, p. 3245, 2018.

[7] X. Chen, S. Jia, and Y. Xiang, “A review: Knowledge reasoning over knowledge graph,” Expert Systems with Applications, vol. 141, p. 112948, 2020.

爱阅书

你可能感兴趣的:(知识图谱,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p