luv_dusk

知识图谱综合

前言

本文为读书笔记，整理自高等教育出版社出版，赵军主编的人工智能丛书《知识图谱》及部分公开网络资料。如有侵权，请立马告之。

1 介绍

1.1 基本概念

目前主流的知识图谱采用 资源描述框架 (RDF) 进行知识表示，以 RDF 三元组的形式存储现实世界中的实体以及实体之间的关系，表示为 $\mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{S})$ ，承载了实体集、关系集和三元组集 (头实体、尾实体和关系)。例如，Freebase 中，三元组 “/people/person/nationality (Jorge Amado, Brazil)”，表示 “Jorge Amado” 的国籍为 “Brazil”；其中，“Jorge Amado” 为头实体，“Brazil” 为尾实体，“/people/person/nationality” 为关系。实际应用中，尾实体除独立的实体外，也可以为头实体的属性，例如数字、日期、字符串等。

1.2 应用场景

知识图谱由谷歌于 2012 年在论文中首次提出，初衷是优化搜索结果和广告推荐。如今，除 推荐系统 和 智能问答 外，也广泛应用于 挖掘实体的潜在联系。例如在自然语言推理任务中，我们希望知识图谱能帮助完成诸如 “A 的出生地在某地，同时他来自于中国；那么仅仅通过 B 的出生地也在某地，我们可以推断出 B 来自中国” 等一系列任务。

1.3 公共领域

目前已知且公开的大规模知识图谱包括 Freebase、Wikidata、DBpedia、YAGO、NELL 以及 Knowledge Vault 等，加之传统的知识库，有以下所示：

Cyc：通用的常识知识库，目的是将上百万条知识编码为机器可处理的形式，并在此基础上实现知识推理等智能信息处理任务；目前包含 50 万实体，3 万个关系以及 500 万事实；
WordNet：普林斯顿大学公布的英文电子词典和本体，采用人工标注的方法，将英文单词按照单词的词义组成一个大的概念网络；词语被聚类成同义词集 (Synset)，每个同义词集表示一个基本的词汇语义概念，词集之间的语法关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等；包含 155,287 个单词，117,659 个同义词集；
Hownet：即知网，由董振东教授主持开发的一个语言认知知识库/常识知识库，以概念为中心，基于义原描述了概念与概念之间以及概念所具有的属性之间的关系，每一个概念可以由多种语言的词汇进行描述 (主要是中文和英语)；包含 800 多个义原，11,000 个词语；
ConceptNet：开放的、多语言的知识图谱，最早起源于 MIT Media Lab 的一个众包项目 Open Mind Common Sense，致力于帮助计算机理解人们日常使用的单词的意义；
YAGO：由德国马克斯·普朗克研究院主持研究的大型语义知识库；基于 WordNet 的知识体系，将 Wikipedia 中的类别与 WordNet 中的同义词集进行关联，同时将 Wikipedia 中的条目挂载到 WordNet 的体系下，既自动扩充了知识库，又对海量的知识进行了组织和整理；拥有一百万个实体以及超过五百万条关系事实数据；
BabelNet：多语言词汇级的语义网络和本体；主要特点是将 Wikipedia 链接到最常用的英语类义词典 WordNet 上，这一点类似于 YAGO，但 BabelNet 加入了多语言支持；覆盖了 284 种语言，包括全部的欧洲语言、大多数亚洲语言等；
DBpedia：从 Wikipedia 中的结构化数据 (Infobox) 中抽取知识；实体包含人物、地点、作品、机构、物种和疾病；支持 127 种语言，描述了 1,731 万个实体，总共包含 95 亿事实三元组；
Freebase：基于 Wikipedia、使用群体智能方法建立的包含 5,813 万实体、32 亿个实体关系三元组的结构化知识资源，是公开可获取的规模最大的知识图谱之一；是第一个尝试利用协同智慧构建完全结构化知识图谱的系统，不过可惜的是，目前已停止更新；
KnowItAll、TextRunner 和 ReVerb：自动从网络数据中抽取信息进而构建知识库，是实现语义搜索的重要支撑技术；区别于传统的文本信息抽取系统，这里要抽取的关系不再是预定义的，抽取的范围是开放域文本；
NELL：卡内基梅隆大学基于 “Read the Web” 项目开发的一套永不停歇的语言系统 (Never-Ending Language Learning)；本身是一套语言学习系统，每天不间断地执行两项任务：阅读和学习；阅读是从 Web 文本中获取知识，并添加到内部知识库，学习任务是使用机器学习算法获取新知识，巩固和扩展对知识的理解；
Kowledge Vault：Google 于 2014 年创建的一个大规模知识图谱；相较于 Google 之前基于 Freebase 的知识图谱版本，Knowledge Vault 不再采用众包的方式进行图谱构建，而是试图通过算法自动搜集网上信息，通过机器学习方法对已有的结构化数据 (例如 YAGO、Freebase、网页中的表格数据等) 进行集成和融合，将其变为可用知识；目前，Knowledge Vault 已经收集了 16 亿个事实，其中 2.71 亿具有高度置信度，准确率在 90% 左右。

除了以上通用领域知识图谱以外，存在众多特定领域的垂直领域知识图谱，包括影视领域的 IMDB、音乐领域的 MusicBrainZ、医疗卫生领域的 SIDER 等。

针对知识图谱构建过程中的不同困难，学术界著有一定量的论文提供解决方案，近年来在发表数量上也呈现加速上升的趋势。由知乎用户育心总结的，2005 年至 2019 年 80 篇知识图谱领域经典论文集，呈现如下分布：

1.4 生命周期

知识图谱的生命周期，第一个阶段为 知识获取；从非结构化文本中获取知识主要包含以下基本任务：

实体识别 (entity recognition)：命名实体 (named entity) 通常包含三大类 (实体类、时间类和数字类)、七小类 (人名、地名、机构名、时间、日期、货币和百分比)；在知识图谱领域，实体识别不仅仅局限于命名实体，也包括其他类别的实体，特别是领域实体，例如股票名、汽车品牌、餐馆名等；与实体识别相关的任务是 实体抽取 (entity extraction)，其区别在于实体抽取的目标是在给定语料的情况下，构建一个实体列表，并不需要在每个句子中确定实体的边界，例如，构建一个歌曲名列表；
实体消歧 (entity disambiguation)：目的在于消除实体的歧义，解决一词多义的问题，例如将打网球的李娜与歌手李娜、跳水运动员李娜等区分开来；从技术路线上划分，实体消歧任务可以分为 实体链接 (entity linking) 和 实体聚类 (entity clustering) 两种类型；实体链接是将给定文本中的某一个实体指称项链接到已有知识图谱中的某个实体上，因为在知识图谱中，每个实体具有唯一的编号，链接的结果就是消除了文本指称项的歧义；实体聚类的假设是已有知识图谱中并没有已经确定的实体，在给定一个语料库的前提下，通过聚类的方法消除语料中所有同一实体指称项的歧义，具有相同所指的实体指称项应该被聚为同一类别；
关系抽取 (relation extraction)：关系抽取的目标在于获取两个实体之间的语义关系；语义关系可以是 一元关系 (unary relation) (例如实体的类型)，也可以是 二元关系 (binary relation) (例如实体的属性)，或是更高阶的关系；根据抽取对象的不同，已有关系抽取任务可分为：关系分类、属性抽取、关系实例抽取；关系分类用于判别两个实体间的关系；属性抽取在于给定一个实体及一个预定义关系，抽取另一个实体；关系实例抽取则同时包含判断实体间关系及把满足该关系的实体抽取出来；
事件抽取 (event extraction)：事件抽取任务的目标是从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来；与关系抽取的不同在于，一个事件通常包含多个关系三元组，涉及更多的实体和关系，因而更为困难；但事件抽取才更符合人们的正常认知规律，因此突破三元组的认知限制，以事件为主体构建知识图谱不可或缺。

第二个阶段，知识融合 (knowledge fusion) 则是对不同来源、不同语言或不同结构的知识进行融合，从而对现有知识图谱进行补充、更新和去重。

第三个阶段，知识存储 (knowledge storage) 方面，涉及到数据库索引的效率，六重索引取代三元组称为更受欢迎的 RDF 格式存储方式；此外，另一种流行的存储基于图数据库的形式，例如开源图数据库 Neo4j，优点是具有完善的图查询语言，支持大多数的图挖掘算法，缺点是数据更新慢，大节点的处理开销大；目前来看，图数据库的方法比 RDF 数据库更为广泛；关于子图筛选、子图同构判定等技术是目前图数据库的研究热点。

第四个阶段，知识推理 (knowledge reasoning) 指导我们如何在数据稀疏的情况下，完成隐含知识的挖掘；目前主流的方法分为两种：1) 基于传统逻辑规则进行推理，其研究热点在于如何自动学习推理规则，以及如何解决推理过程中的规则冲突问题，2) 基于表示学习的推理，即采用学习的方式，将传统推理过程转化为基于分布式表示的语义向量相似度计算任务，这类方法优点是容错率高、可学习，缺点也显而易见，即不可解释，缺乏语义约束。除了对已有的知识图谱进行补全外，知识推理也可直接应用于相关任务，例如自动问答系统。

第五个阶段，知识应用 (knowledge application) 在四个方向上使得知识图谱得以发挥重要价值，分别为 智能搜索、自动问答、推荐、决策支持；智能搜索和自动问答应用图信息检索及知识推理，将适配的结果返回给用户，如谷歌搜索的即时结果；推荐方面，利用知识图谱中实体 (商品) 的关系向用户推荐相关产品，如百度搜索右侧的相关推荐；决策支持上，通过将知识图谱可视化提供给决策者，便于其进行知识管理与决策思考，如天眼查的股权结构图。

2 知识表示

知识应用的难点在于知识推理，而知识推理的难点在于 知识表示 (knowledge representation)。

2.1 经典知识表示体系

经典的知识表示方法包括逻辑 (Logic)、语义网络 (Semantic Network)、框架 (Framework)、脚本 (Script) 以及 语义网 (Semantic Web)：

	简介	示例	优点	缺点
逻辑	包含命题逻辑、一阶逻辑以及高阶逻辑；命题逻辑通过与( $\land$ )、或( $\lor$ )、非( $\lnot$ )、蕴含( $\Rightarrow$ )、当且仅当( $\Leftrightarrow$ )等逻辑符将多个子命题组合成复合命题实现知识推理；一阶逻辑引入全称量词( $\forall)$ 以及存在量词( $\exists$ )，得以量化实体和概念；更高阶的，二阶逻辑可以量化集合，三阶逻辑可以量化集合的集合，以此类推	$Z =$ 如果鲸目中的一类北部有背鳍，那么它是海豚科； $X_1 =$ 鲸鱼有背鳍； $X_2 =$ 这种鲸鱼属于海豚科； $(X_1 \Rightarrow X_2$ )	利用简单统一的方式描述知识，让知识表示和知识推理分离，使得推理方法可以不依赖于具体领域	难以表示过程性知识和不确定性知识；当知识中的属性、谓词和命题数量增大时，推理过程因为符号的组合爆炸问题，计算复杂度呈指数级增长趋势
语义网络	构建通过语义关系连接的有向图知识网络，将知识表示为相互连接的点和边的模式，节点表示实体、事件、值等，边表示对象之间的语义关系；语义网络中最基本的语义单元称为语义基元，用三元组形式表示，如<节点1，关系，节点2>；关系包括实例关系、分类关系、成员关系、包含关系、位置关系等	珊瑚是一种动物，记为 $< E_{1}, R, E_{2} >$ ； $E_1 =$ 珊瑚； $E_2 =$ 动物； $R =$ 是一种	方便计算机的存储和检索	推理过程不如一阶逻辑简单明了，需要针对不同的关系做不同处理
框架	继承人类认识世界的方式，以框架的结构存储知识；每一个框架包含多个槽；例如<教师实例>{<姓名>{张三}, <年龄>{30}}	框架1：<教师>；槽1：<姓名>；槽2：<年龄>；槽3：<学校>；槽4：<院系>	-	无法适应真实世界的多样性和复杂性；不同系统之间的框架难以对齐
脚本	按时间顺序描述事物的发生，表示的知识有确定的时间或因果顺序	顾客去餐厅吃饭；第一场，进入餐厅；第二场，点餐；第三场，上菜进餐	能处理有一定时序关系的槽信息	对元素基本属性的表述能力有限，也难以描述多变的事件可能的发展方向

2.2 资源描述框架(RDF)

资源描述框架 (Resource Description Framework) 是近年来绝大多数知识图谱和知识库遵从的知识表示方法，因其表达清晰、便于计算机检索和存储，1999 年由 W3C 发布后逐渐成为主流。RDF 归属于 语义网 体系中的第二个层次，在 XML 的基础上进行扩展而成。其吸收了语义网络基于三元组表示知识的特性，对关系进行一定约束，以保证框架下不同的知识库能够有效融合。RDF 下，对于二元知识 “马克思·普朗克出生于丹麦基尔”表示为：

<马克思·普朗克，出生于，丹麦基尔>

在应对二元以上的多元知识，例如 “马克思·普朗克于 1858 年出生于丹麦基尔” 表示为：

<出生信息 135，人物，马克思·普朗克>
<出生信息 135，时间，1858 年>
<出生信息 135，地点，丹麦基尔>

单单如此，RDF 很难对同一领域中的不同知识进行交互和融合，因此 RDF Schema (RDFs) 被提出用来定义领域相关的知识，关注类别和属性的层次结构以及继承关系，例如：

<人物，rdf:type，rdf:Class>
<国籍，rdf:type，rdf:Property>
<国籍，rdfs:domain，人物>
<国籍，rdfs:range，xsd:string>

除以上示例之外，还存在 rdfs:subClassOf 等其他表示层次结构的 schema 关系，详细介绍可参见 RDFs 官网。为更好地表示知识，许多研究人员将三元组扩充为包含时间和空间信息的五元组、六元组或更高元的组合表示。

2.3 知识表示学习

深度学习成为潮流后，各类表示学习模型层出不穷，针对知识图谱中的三元组同样衍生出众多优秀的表示学习模型，该领域称为 知识图谱嵌入 (Knowledge Graph Embedding) 或 知识表示学习 (Knowledge Representation Learning)。其目的在于通过特定的语义结构，将实体和关系嵌入到等维度的向量空间中 (关系有时候表示为矩阵)。以 Trans 系列的 TransE 为例，模型的学习目标是使得任意一个三元组 $< E_{1}, R, E_{2} >$ ，最终的向量表示满足 $Z_{E_1}+Z_{R}\approx Z_{E_2}$ 。知识表示学习能够在知识图谱内部发挥显著作用，常用于知识融合和知识推理。刘知远在《知识表示学习的研究与进展》中对该领域进行了深刻而细致的总结。

3 知识体系

知识体系主要包括三个方面的核心内容：对概念的分类、概念属性的描述以及概念之间相互关系的定义。知识体系的基本形态包括词汇 (Terms)、概念 (Concepts)、分类关系 (Taxonomic Relations)、非分类关系 (Non-Taxonomic Relations) 和公理 (Axioms) 这五个不同层次。

3.1 人工构建知识体系

完全自动地构建知识体系，虽然是人们的终极目标，但是实践证明目前还难以达到，特别是最后两个层次的知识体系。人工构建知识体系主要分为以下六个主要阶段：

确定领域及任务：知识体系与具体的领域密切相关，例如金融领域和医学领域涉及的概念完全不同。因此在创建知识体系之前，首先应该确定知识图谱面向的领域。
体系复用：知识体系具有很强的抽象性和概括性，从零构建不仅成本高昂，而且质量难以保证。实际上可以先构建一个轻量级的知识体系，然后尽可能基于它们进行扩展。因此，真正进行构建之前，应当广泛调研现有的第三方知识体系或与之相关的资源。
罗列元素：根据确定的领域，罗列期望在知识图谱中出现的要素列表，主要包括概念、属性以及关系。
确定分类体系：确定了相关要素之后，需要将其中表示概念的要素组织成层级结构的分类体系。例如，歌手是娱乐人物的下层类别，所有歌手都是娱乐人物。
定义属性及关系：为每个类别定义属性及关系，用于描述概念的内在特征。例如，人的出生日期。
定义约束：不同的属性和关系具有不同的定义域和值域，利用此类数据对抽取的信息进行约束。例如，“年龄” 的值应该是正整数并小于 150 岁。

3.2 自动构建知识体系

上文中提到，目前无法做到完全自动地构建知识体系，因此目前主流的方式是通过自动和人工相结合的方法。

(1) 领域概念抽取

抽取候选术语：利用自然语言处理工具对文本进行词法、句法分析，然后利用语言学规则或模板在文本中抽取特定的字符串，并将字符串当作领域属于的候选。该步骤的目的是尽可能多地将真正的术语包括进来，因此对抽取术语的质量没有严格要求。
术语过滤：对上一步抽取的候选术语进行过滤。领域术语与普通词汇在语料中往往具有不同的统计特征，例如普通词汇无论在领域内还是领域外一般具有相似的分布，而领域术语在领域内外的分布会有明显的区别。在实际操作中，可以利用 互信息 (Mutual Information)、TF-IDF、RTF 等方法刻量候选术语的统计特征，并给予这些值过滤低质量的候选术语。
术语合并：术语中常常出现同义词，例如电脑和计算机其实是同一种概念。代表性的术语合并策略分为两种，一种基于现有的词典资源，例如 WordNet、HowNet、同义词词林 等；另一种基于机器学习，认为同义词应当具有相似的上下文语境，将大量语料投入 Word2Vec、ELMo、BERT 等预训练模型进行训练，获取词汇的向量表示并进行聚类，聚类结果即为同义词的识别结果。

(2) 分类体系的构建

与人工相同，分类体系的构建在于确认不同概念之间的继承关系，语言学上称为 上下位关系。与术语合并类似，上下位关系的识别分为基于词典的方法和基于机器学习的方法，方式与前者基本一致。

(3) 概念属性及关系抽取

以上步骤获取了知识体系涉及的概念及概念间的分类关系，还需要为概念定义属性及关系。在实践中，一般将关系也视作概念的属性，采用统一的过程对它们进行抽取。方法与抽取概念的过程类似，首先利用词法、句法分析等工具对文本进行预处理，并通过规则或模板的方法为给定的概念获取候选的属性集合。

4 实体识别

命名实体识别 (Named Entity Recognition, NER) 旨在从非结构化的文本中抽取命名实体。命名实体大致可分为三大类 (实体类、时间类、数字类) 及七小类 (人名、结构名、地名、时间、日期、货币和百分比)。不同领域的任务对命名实体类别粒度的需求不同，例如有些任务中只需要识别出一个实体是人，有的任务中需要识别出一个实体是教师、学生或者医生。

有关命名实体识别已经大量研究，大致有两种方法：基于规则 和 基于机器学习，两者可同时结合使用。前者准确率较高，接近人类的思考方式，但成本昂贵，规则的制定依赖领域专家，可移植性差。后者依赖大量人工标注数据，且对算力和存储空间提出一定要求。在这里我们主要介绍后者。

4.1 基于机器学习

研究历史上出现过许多用于命名实体识别的机器学习模型，最终经受历史考验，至今仍然广泛使用的代表是 条件随机场 (Conditional Random Field, CRF)。CRF 是知名的图概率模型之一，可以接受任何 1/0 取值形式的特征，同时考虑节点的自身特征以及节点与节点间的转移特征，对节点的标签进行预测。应用在命名实体识别任务上的 CRF 通常指的是线性 CRF，应用于一阶马尔可夫链。条件随机场下的概率分布：
$P(Y|X;\lambda,\mu)=\exp \Big( \sum_{i=1}^n\sum_j \lambda_j t_j(y_{i-1},y_i,x,i) +\sum_{i=1}^n\sum_k \mu_ks_k(y_i,x,i) \Big)$

括号内前半部分对应节点的转移特征，后半部分对应状态特征， $\lambda$ 和 $\mu$ 为各个特征函数对应的参数，转移特征函数 $t$ 及状态特征函数 $s$ 取值皆为 ${1,0\}$ 。训练时采用 SGD 或 L-BFGS 等优化算法最大化 $P$ ，通过全局归一化避免标记偏置问题；推理时采用 维特比算法 (Viterbi) 或 束优化 (Beam Search) 寻求最优转移路径。

出于条件随机场优秀的特征描述能力，使用者可以自由地定义各类二元特征加入到模型的训练中。因此命名实体任务多采用各类自然语言处理工具预先提取丰富的语法和句法信息作为状态特征，例如 词性标注、句法分析、语义角色标注 等，通过节点之间的特征共现对既有的状态特征进行补充。

深度学习进入该领域后，提出另一种解决思路，使用编码器编码过后的语义向量代替原有的特征函数和特征参数，形成端到端的网络进行训练。这样做的好处在于避免了大量人工设计特征的环节，同时可以使用迁移学习将应用迅速落地。常见的一种架构在于使用 Word2Vec+biLSTM+CRF 的搭配。ELMo、BERT 等大型预训练模型问世后，预训练语言模型逐渐代替 Word2Vec，成为优质的语义向量提取器。BERT 甚至可以直接摒弃 CRF，通过预训练加微调的方式包揽上下游任务，直接输出序列标签。

4.2 细粒度实体识别

在特定领域的命名实体任务中，传统的三大类和七小类已无法满足信息抽取的需要，因此有了 细粒度实体识别。例如人可以细分为艺人、运动员、教师、工程师等。NELL 中包含了数百个人工预先定义的实体类别，Freebase 中更是高达上千种，两个系统中的实体类别都在动态增加。

细粒度实体识别的难点在于标注数据的构建，基于人工的方式显然很难满足大规模语料的需求，一种常见的方式在于自动识别细粒度实体类别，利用回标的方法进行自动标注。常见的方法包括利用上下文聚类对提取的同类别实体进行无监督分类。这种方法标注速度快，但容易带来噪音。

4.3 距离监督

英文名为 Distant Supervision，自 2006 年首次提出后便广泛应用于知识图谱项目中，主要在于实体识别和关系抽取任务中。其目的在于充分利用既有知识库的先验知识，来为本项目的各类任务提供信息支持。具体的应用体现在使用既有知识库的模板对数据进行快速标注，如同 Open IE；另一方面，也可以通过在该知识库下进行知识检索，验证抽取实体的可信度，常见的做法在于使用搜索引擎反馈的信息确认实体。

5 实体消歧

旨在于解决一词多义的问题，实体消歧的方法分为 实体链接 (Entity Linking) 和 实体聚类 (Entity Clustering) 两种。

5.1 实体聚类

以聚类方式实现消歧的系统首先对每一个实体指称项，抽取其特征 (如上下文中的词、实体、概念)，并将其表示为特征向量，而后采用某种聚类算法对特征向量进行聚类，使得聚类结果中每一个类别都对应到一个目标实体上。特征向量的构建包括以下三种方式：

基于表层特征：最为直接和简单的方式是使用上下文构建词袋，在此基础上延伸可使用 TF-IDF，句法和语义特征也可作为向量的构建考量；有研究者预先训练一个 最大熵模型 判断两个指称项表示的是否是同一个实体，利用模型推理得出的概率值作为相似度传入 凝聚式合并算法 (Agglomerative Clustering Algorithm) 对指称项进行聚类。
基于扩展特征：在表层特征的基础上，抽取人物的传记属性来扩展特征，例如出生日期、出生地等。
基于社会化网络：完全依赖于抽取的上下文关系，而非表层特征。依据上下文社会化关系为每一个实体建立图网络，采用随机游走的算法计算实体之间的相似度；计算实体共现的方法也能达成识别的目的。

后两种方式需要在关系抽取完成后进行。

5.2 实体链接

实体链接在于将实体指称项链接到知识库中的特定实体 (如果知识库中不包含待消歧项，则将实体指称项链接到空实体 NIL)。这里也常常使用 距离监督 构建待链接实体列表，列表中同时包含了实体的描述、结构化信息、辅助性信息。由于待链接实体列表的长度可能高达上百万，将实体指称项与每一个实体一对一地匹配是不可能的，因此在链接前需要根据规则或知识先过滤掉大部分候选项。最行之有效的方法是使用现有的词典，此外可以使用基于构词法的模糊匹配算法，例如 Metaphone Algorithm 和 Soft TF-IDF。候选过后，通过为每一位候选实体进行打分，将得分最高的实体作为链接目标。打分的方法目前分为四种：

向量空间模型：主要基于实体指称项上下文与目标实体上下文中特征的共现信息来确定相似度，共现信息指的是基于 Term (通常为词，还可能包括概念、类别等) 组成的向量。
主题一致性模型：使用上下文抽取的其他实体指称项，组成实体指称项集合，与目标实体进行一致性评断。一致性的计算目前大部分采用目标实体与上下文中其他实体的加权语义关联平均：
$Coherence(e,o)=\frac{\sum_{e_i\in O}w(e,o)sr(e,e_i)}{\sum_{e_i\in O}w(e,o)}$ $w(e,o)=\frac{\sum_{e_i\in O}sr(e,e_i)}{|O|}$ 其中， $o$ 是实体指称项， $O$ 是实体指称项上下文实体集合， $sr(e,e_i)$ 是实体 $e$ 和实体 $e_i$ 之间的语义关联值。
协同实体链接模型：考虑全文中所有实体指称项的关联性。Kulkarni 等人提出的协同实体链接办法将单篇文档的协同实体链接看成是优化任务，目标函数如下：
$\max\frac{1}{\dbinom{|S_o|}{2}}\sum_{s\ne s' \in S_o}r(y_s,y_{s'})+\frac{1}{|S_o|}w^Tf_s(y_s)$ 其中， $y_s$ 指的是实体指称项 $s$ 的目标实体， $S_o$ 是单篇文档内所有实体指称项的集合， $r(y_s,y_{s'})$ 是目标实体之间的语义关联， $f_s(y_s)$ 是实体指称项 $s$ 与其目标实体 $y_s$ 的一致性打分。从公式可以看出，第一部分对单篇文档内所有实体指称项的目标实体之间的关系进行建模，第二部分对单篇文档内实体指称项与目标实体之间的一致性进行建模。突出的建模方法包括图算法、动态规划。
基于神经网络的模型：传统方法的核心，在于实体与实体、实体与文本、文本与文本相似度的计算，特征的抽取往往可扩展性较差，表示能力不足，从而造成误差传递。基于深度学习的方法缓解了上述问题，做法在于通过预训练获得文档和实体的语义表达，在该表达的基础上计算点积或余弦相似度完成匹配。多层自编码器、卷积神经网络 和 多粒度的卷积神经网络 是常用的几个模型。由于基于神经网络的方法不需要人工设计复杂的特征，易于捕获深层语义，取得了比较好的性能，占据了实体消歧的主导地位。

6 关系抽取

对于非结构化的文本，关系抽取可分为 开放域 (open domain) 和 限定域 (domain-specific)。限定域关系抽取预先定义提取的关系类别，通常需要大量的训练语料或语法规则；开放域则不限关系种类。本质上，关系抽取和实体抽取的过程相对类似，皆为从非结构化文本中抽取词组，因此本节将以相对简略的方式进行概述。

6.1 限定域关系抽取

限定域关系抽取分为以下几种方法：

基于模板：模板的获取可通过人工定义或自动学习完成。自动学习的方法衍生出两个问题：如何学习用于抽取关系的模板，以及如何将学习到的模板进行聚类。针对以上问题，已有的方法多采样 自提升 (Bootstrapping) 策略，利用实体对在文本中获取模板信息，再利用获取到的模板抽取更多的实体对，进行联合迭代式地交替抽取和学习。模板可以是基于词汇的，也可以是基于句法或语义的。
基于特征工程：提取词汇、句法、语义特征后使用 SVM 等分类模型或 CRF 等序列标注模型进行训练，通过在非结构化文本上进行分类推理提取关系。
基于神经网络：通过 Word2Vec、BERT 等大型预训练模型获取词汇的分布式表达，输送给基于 RNN 或 Transformer 的神经网络进行序列标注，抽取关系词组。

为应对以上方法对语料的大量需求，一些 弱监督学习方法 被应用于关系抽取，上文中提到的 距离监督 是其中的典型代表。

6.2 开放域关系抽取

开放域关系抽取同样需要应用自然语言处理工具，从文本中提取词汇、句法和语义特征，通过序列标注模型实现关系抽取。但在此基础上，需要引入 可信度 (confidence) 对抽取的三元组进行事实判定。可信度的计算可基于 距离监督，也可基于初始的 种子模板。由于开放域关系抽取抽取到的关系难以自动形成知识体系，映射至知识图谱中，因而基于限定域的关系抽取是目前的主流方向。

7 知识融合

融合异构的知识图谱，使其提供更全面的知识信息，重要性是毋庸置疑的。

7.1 框架匹配

依据使用技术的不同，框架匹配可以分为 元素级匹配 和 结构级匹配。元素级匹配独立判断两个知识图谱中的元素是否应该匹配，不考虑其他元素的匹配情况。结构级匹配利用知识图谱的结构，在元素匹配过程中考虑其他相关元素匹配情况。

(1) 元素级匹配

最基本的方法基于字符串匹配，将字符串看作字母的精确序列、字母的集合、单词集等。字符串越相似，则它们越有可能表示相同的概念。实际应用中，广泛采用的匹配方法包括 前缀距离、后缀距离、编辑距离 以及 n元语法距离 等。为解决以上方法匹配过程中的一词多义和一义多词问题，引入基于语言学的技术可以更好地计算元素之间的关联性，例如 同义词、反义词、形态变体、语法变体、同一词根上词汇形式和功能的变化、语法结构的变化 等。同时，还能使用元素的取值范围、关系的对称性加强匹配程度，称为 基于约束 的匹配。上文中反复提到的词典，也可以用于元素之间的匹配。

(2) 结构级匹配

结构级匹配的假设是，相似的概念具有相似的概念结构。基于结构的匹配技术主要有三种：基于图的技术、基于分类体系的技术 和 基于统计分析的技术。基于图的技术通过寻求最大公共子图实现匹配，通常计算量很大，一般采用 EM、Label Propagation 等迭代算法近似求解。基于分类体系的技术是基于图的技术的扩展，只关注诸如类型和子父类的特殊关系。基于统计分析的技术在已有样本的基础上对概念、属性、实例、关系等对象进行分组，从而计算它们之间的距离，典型的技术包括 形式概念分析、基于距离的分类、相关性分析 以及 频度分布。

7.2 实体对齐

传统的实体对齐方式分为 成对实体对齐 和 协同实体对齐 两种。成对实体对齐独立地判断两实体是否对应同一物理现象，通过匹配实体属性等特征判断它们的对齐程度。协同实体对齐认为不同实体间的对齐是相互影响的，通过协调不同对象间的匹配情况得以达到一个全局最优的对齐结果。

知识表示学习 同样可应用于实体对齐，通过知识库联合表示学习，将知识映射至同一个向量空间里，通过计算向量相似度实现实体对齐。这种方法不依赖于人工设定的规则和特征，可以非常容易地迁移到不同语言、不同领域地知识库对齐任务中。例如，给定两个知识库，通过简单的字符串匹配方法产生种子对，使用 TransE 对实体和关系进行表征训练，训练目的是使得种子对中的两个实体的向量尽量相似。

7.3 冲突检测与消解

不同知识库对同一知识的表达可能会冲突，例如明星的身高，对冲突的检测和消解是知识融合的重要步骤。冲突消解技术上可分为两类：基于投票 和 基于质量估计。基于投票的方法如其名，基于质量估计的方法考虑不同知识来源的可信度，最终选择较高质量的结果，例如根据 HITS 或 PageRank 算法计算不同数据来源的可信度。

8 知识存储

8.1 存储形式

知识图谱的存储形式通常为以下三种：

三元组表：直接对 RDF 事实三元组进行存储，简单直接，易于理解。但整个知识图谱存储在一张大表里无疑十分低效，查询、插入、删除和修改等操作的开销过大。代表产品包括 Jena、Oracle、Sesame、3store、SOR、Rstar 和 Virtuoso。
类型表：为每种类型构建一张表，同一类型的实例存放在相同的表中，表中每一列代表一种属性，每一行代表一个实例，表与表之间的指针代表了继承关系。这样的类型表通常由关系型数据库进行存储，虽弥补了三元组表的不足，但容易造成大量空值。知名的关系型数据库包括 MySQL、DB2、Oracle、Microsoft SQL Server、PostgreSQL 等。
图：将每一个实体认作节点，关系认作节点的属性指向另一个实体，以图结构的形式将知识图谱存储在数据库中。这样的结构有利于知识的查询和推理，也有利于实施图相关的算法。常用的图数据库包括 Neo4j、OrientDB、InfoGrid、HyperGraphDB、InfiniteGraph 等。

8.2 图数据库

基于图结构的存储存在诸多优势，因而成为目前的主流，下面对各类图数据库进行详细介绍：

Neo4j：开源的图数据库系统，基于 Java 实现，是一个具备完全事务特性的高性能数据库，具有成熟数据库的所有特性。Neo4j 是一个本地数据库 (又称基于文件的数据库)，这意味着不需要启动数据库服务器，应用程序不用通过网络访问数据库服务，而是直接在本地对其进行操作，因此访问速度快。因其开源、高性能、轻量级等优势，Neo4j 受到越来越多的关注。
OrientDB：开源文档 - 图数据库系统，兼具图数据库对数据强大的表示及组织能力以及文档数据库的灵活性和很好的可扩展性。OrientDB 具有多种模式可选，包括全模式、无模式和混合模式。全模式要求数据库中的所有类别都必须有严格的模式，所有字段都强制约束；无模式则相反，不需要为类别定义模式，存储的数据记录可以有任何字段；混合模式则允许为类别定义若干字段，同时支持自定义字段。该数据库同样是本地的，支持许多数据库的高级特性，如事务、快速索引、SQL 查询等。
InfoGrid：开源的互联网图数据库，提供了很多额外的组件，可以很方便地构建基于图结构的网络应用。InfoGrid 实际上是一个 Java 语言的开源项目集，其中 InfoGrid 图数据库项目是其核心，其他的项目包括 InfoGrid 存储项目、InfoGrid 用户接口项目等。
HyperGraphDB：同样是开源的存储系统，依托于 BerkeleyDB 数据库。和上述图数据库相比，HyperGraphDB 最大的特点在于 “超图”，一条边可以指向多个节点。实际上，HyperGraphDB 的边还可以指向其他边。如此以来具有更强大的表示能力。
InfiniteGraph：基于 Java 语言开发的图数据库系统，是一个分布式数据库系统。和 MySQL 等传统关系数据库类似，InfiniteGraph 需要作为服务项目进行安装，应用程序只能通过访问数据库服务对数据库进行操作。InfiniteGraph 借鉴了面向对象的概念，将图中的每个节点及边看作一个对象。具体地说，所有的节点都继承自基类 BaseVertex，所有的边都继承自基类 BaseEdge。

9 知识推理

作为知识图谱生态链中的重要环节，知识推理既可用于 知识补全，也可服务于 知识问答。例如我们希望在知道 “廊坊在河北省”、“河北省在中国华北” 的同时，能够推理出 “廊坊位于中国华北”。当前主流的知识推理方法主要分为以下三种：

基于概率或逻辑：尽管人为构造的推理规则能获得极高的准确度，但这样的方法可移植性较差，且在应对大型知识图谱时无能为力，因而如何从既有的知识体系中自动地挖掘出可信度较高的关系路径是当下的主要难题。传统的推理策略采用计数、最大化后验概率 等统计学习的方法生成规则路径。按照推理中特征的模式和来源，可分为 概率图模型、概率逻辑推理 和 关联规则挖掘。概率图模型的代表有基于有向图的 贝叶斯网络 (Bayesian Network) 和基于无向图的 马尔可夫网络 (Markov Network)，以及在此基础上衍生出的一派优秀的推理模型，例如 基于马尔可夫性的蒙特卡洛采样 (MCMC) 和 Metropolis Hasting 算法，可参考《概率图模型：原理与技术》。概率逻辑推理将概率图模型与一阶逻辑相结合，如 马尔可夫逻辑网 (Markov Logic Network)，为每一条逻辑规则附加权重，通过训练调整权重大小。关联规则挖掘则不同于前两者，没有严格的逻辑定义，将逻辑规则作为具有结构的特征，利用数理统计的方式评估特征的支持度、置信度或其他预定义的统计量，通过将统计数据作为特征值加入到最终的统计模型中进行推理。
基于知识表示学习：在将知识图谱中的实体和关系表示为等维度的向量后，可通过相加相减和矩阵相乘等数值运算的方式获得推理后的隐性语义表示，将其与目标实体或目标关系向量进行距离运算后判断推理关系。基于知识表示学习的推理方法解决了维度灾难和数据稀疏的问题，神经网络弹性的超参数设定使得该方法能同时应用于大型和小型知识图谱，是目前表现最为稳定的方法。ConvE 和 DistMul 是其中的优秀代表。

近年来一种基于强化学习的新思路被应用于知识推理，但由于强化学习本身表现不稳定，状态和奖励函数难以设定，未能大规模胜过当下的主流方法。

10 知识问答与对话

广义而言，问答可依据底层支持的数据库分为四种：知识图谱问答、文本问答、表格问答 以及 社区问答。其中文本问答通常又称为 阅读理解 (Reading Comprehension)，旨在从非结构化文本中直接获取答案。而我们在此讨论的即为知识图谱问答，常作为搜索引擎和对话机器人的后台程序作为技术支撑。知识图谱问答在流程上通常分为以下几步：

语义解析：将 query 转换为逻辑表示式。知名的语义表示模型包括 组合范畴语法 (Combinatory Categorial Grammers, CCG)、一阶谓词逻辑 (First-Order Predicate Logic) 和 lambda 演算 等。
实体链接：将逻辑表达式中的实体和关系与知识图谱进行对齐。
知识推理：当既有知识库无法满足逻辑表达式下的答案抽取需求时，通过知识推理获取目标答案。

你可能感兴趣的:(自然语言处理,算法)

云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
优选算法训练篇07--力扣LCR179.查找总价格为目标值的两个商品大胆飞猪算法训练篇算法 leetcode
目录1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：3.解法一(暴力解法，会超时)：4.解法二(双指针-对撞指针):1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：购物车内的商品价格按照升序记录于数组price。请在购物车中找到两个商品的价格总和刚好是target。若存在多种情况，返回任一结果即可。示例1：输入：price=[3,9,12,15],tar
LeetCode215. 数组中的第K个最大元素 techpupil 算法快速选择 leetcode
给定整数数组nums和整数k，请返回数组中第k个最大的元素。请注意，你需要找的是数组排序后的第k个最大的元素，而不是第k个不同的元素。你必须设计并实现时间复杂度为O(n)的算法解决此问题。示例1:输入:[3,2,1,5,6,4],k=2输出:5示例2:输入:[3,2,3,1,2,4,5,5,6],k=4输出:4分析：本题我们能想到最简单的方法就是直接给数组排序，然后取第第N-k个元素，但题目要求是
SM国密算法深度解析与技术实践安全
SM国密算法深度解析与技术实践一、算法体系概述SM系列密码算法是由中国国家密码管理局发布的商用密码标准体系，涵盖非对称加密、对称加密、杂凑算法、标识密码等多个领域。其核心组件包括：SM2：基于椭圆曲线的非对称加密算法（GB/T32918）SM3：密码杂凑算法（GB/T32905）SM4：分组对称加密算法（GB/T32907）与国际算法对比类型国密算法国际标准密钥长度安全强度非对称加密SM2RSA-
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
2.服务器负载均衡我是一条胖咸鱼华为安全HCIP 网络服务器安全负载均衡华为
1.服务器负载均衡概述负载均衡基本概念实服务器：处理业务流量的实体服务器，客户端发送的服务请求最终是由实服务器处理的。实服务器组：由多个实服务器组成的集群，对外提供特定的一种服务。虚拟服务器：实服务器组对外呈现的逻辑形态，客户端实际访问的是虚拟服务器。负载均衡算法：FW分配业务流量给实服务器时依据的算法，不同的算法可能得到不同的分配结果。服务健康检查：FW检查服务器状态是否正常的过程，可以增强为用
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
代码随想录算法训练营Day19| LeetCode 77 组合、216 组合总和 III、17 电话号码的字母组合今天也要早睡早起代码随想录算法训练营跟练算法 leetcode c++数据结构递归回溯
理论基础回溯的本质是穷举，也就是暴力求解，它是递归的一部分。所有回溯法解决的问题都可以抽象为树形结构，因为回溯法解决的都是在集合中递归查找子集，集合的大小构成了树的宽度，递归的深度就构成了树的深度（cr.代码随想录）。应用回溯一般被用于以下几种问题（cr.代码随想录）的求解中：组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
数据结构：交换排序的实现 z_鑫数据结构数据结构排序算法算法 c语言
概要交换排序是一类通过比较和交换元素位置来实现排序的算法。其核心思想是在序列中进行两两比较，若元素顺序不符合排序要求，则交换它们的位置。常见的交换排序算法包括冒泡排序和快速排序，它们在不同场景下各有优劣。整体架构流程冒泡排序从数组的第一个元素开始，依次比较相邻的两个元素；如果前一个元素大于后一个元素（假设为升序排序），则交换这两个元素的位置；对数组中的每一对相邻元素都执行上述操作，经过一轮比较后，
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
Leetcode-100 贪心算法 LuckyAnJo leetcode leetcode 贪心算法算法
贪心算法简介贪心算法（GreedyAlgorithm）是一种常见的优化算法，用于解决最优化问题。该算法的核心思想是每次选择当前情况下的最优解，并期望通过这些局部最优解得到全局最优解。贪心算法通常用于那些可以分解为若干个子问题，且每个子问题的最优解可以合成全局最优解的问题。贪心算法之所以有用，是因为它可以快速地做出决策，并能在某些问题上实现较高的效率，避免了回溯与暴力解法的复杂度。贪心算法思想贪心算
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
字节跳动算法高频题：动态规划最优模板知识产权13937636601 计算机算法动态规划
本文系统梳理字节跳动近三年算法面试中的动态规划（DP）高频题型，提炼出适用于80%场景的通用解题模板。通过背包问题、字符串处理、状态压缩等六大核心模块解析，结合跳槽、股票交易、编辑距离等15道真题案例，揭示动态规划的状态转移方程构建规律与维度优化技巧，助您在面试中实现时间复杂度与空间复杂度的双重最优解。第一章动态规划基础框架1.1动态规划三大特征特征判定标准真题案例重叠子问题递归树中存在重复计算节
macOS 使用 enca 识别文件编码类型（比 file 命令准确）知识搬运bot 软件工具/使用技巧 macos enca file iconv 文件编码
文章目录macOS上安装enca基本使用起因-iconv关于enca安装Encaenca&enconv其它用法macOS上安装encabrewinstallenca基本使用encafilepath.txt示例$enca动态规划算法.txt[0]SimplifiedChineseNationalStandard;GB2312CRLFlineterminators起因-iconv在macOS上打开一些
OpenCV图像拼接（4）图像拼接模块的一个匹配器类cv::detail::BestOf2NearestRangeMatcher 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::BestOf2NearestRangeMatcher是OpenCV库中用于图像拼接模块的一个匹配器类，专门用于寻找两幅图像之间的最佳特征点匹配。它是基于“最近邻与次近邻距离比”原则来过滤匹配点对的，以提高匹配结果的准确性。这个类特别适用于需
股票市场的量化交易策略如何应对市场情绪变化？云策量化程序化炒股量化软件量化交易量化炒股 QMT 股票交易 PTrade 量化交易股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》股票市场的量化交易策略如何应对市场情绪变化？在股票市场中，量化交易策略是一种基于数学模型和算法的交易方式，它通过分析历史数据来预测未来价格走势，并据此制定交易决策。然而，市场情绪的变化对股票价格有着不可忽视的影响。本文将探讨量化交易策略如何应对市场情绪的变化，并提供一些具体的代码示例。一、市场情绪的重要性市场情绪是指投资者对市
算法笔记——前缀树、贪心算法（更新ing....... 不吃香菜的码农左神算法笔记算法数据结构贪心算法 leetcode 堆栈
前缀树、贪心算法一、前缀树1.什么是前缀树2.如何生成前缀树二、贪心算法1.拼接字符串2.金条问题3.项目会议时间问题4.项目收益最大化4.随时获得数据流的中位数一、前缀树1.什么是前缀树前缀树一般指字典树这是指一种结构而不是一类题（注意信息是在树的路上）典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
基于WebAssembly的浏览器密码套件闲人编程 wasm 服务器易于集成跨平台性密码套件浏览器 WebAssembly
目录一、前言二、WebAssembly与浏览器密码套件2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU加速设计5.1异步任务调度5.2GPU加速六、GUI设计与功能模块七、完整代码实现九、代码自查与总结十、总结与展望一、前
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》