腾讯技术工程

万字详解：腾讯如何自研大规模知识图谱 Topbase

作者：郑孙聪，腾讯 TEG 应用研究员

Topbase 是由 TEG-AI 平台部构建并维护的一个专注于通用领域知识图谱，其涉及 226 种概念类型，共计 1 亿多实体，三元组数量达 22 亿。在技术上，Topbase 支持图谱的自动构建和数据的及时更新入库。此外，Topbase 还连续两次获得过知识图谱领域顶级赛事 KBP 的大奖。目前，Topbase 主要应用在微信搜一搜，信息流推荐以及智能问答产品。本文主要梳理 Topbase 构建过程中的技术经验，从 0 到 1 的介绍了构建过程中的重难点问题以及相应的解决方案，希望对图谱建设者有一定的借鉴意义。

一、简介

知识图谱（ Knowledge Graph）以结构化的形式描述客观世界中概念、实体及其关系，便于计算机更好的管理、计算和理解互联网海量信息。通常结构化的知识是以图形式进行表示，图的节点表示语义符号（实体，概念），图的边表示符号之间的语义关系（如图 1 所示），此外每个实体还有一些非实体级别的边（通常称之为属性），如：人物的出生日期，主要成就等。

图1 知识图谱的示列

TEG-AI 平台部的 Topbase 是专注于通用领域知识。数据层面，TopBase 覆盖 51 个领域的知识，涉及 226 种概念类型，共计 1 亿多个实体，三元组数量达 22 亿多。技术层面，Topbase 已完成图谱自动构建和更新的整套流程，支持重点网站的监控，数据的及时更新入库，同时具备非结构化数据的抽取能力。此外，Topbase 还连续两次获得过知识图谱领域顶级赛事 KBP 的大奖，分别是 2017 年 KBP 实体链接的双项冠军，以及 2019 年 KBP 大赛第二名。在应用层面，Topbase 主要服务于微信搜一搜，信息流推荐以及智能问答产品。本文主要梳理 Topbase 构建过程中的重要技术点，介绍如何从 0 到 1 构建一个知识图谱，内容较长，建议先收藏。

二、知识图谱技术架构

TopBase 的技术框架如图 2 所示，主要包括知识图谱体系构建，数据生产流程，运维监控系统以及存储查询系统。其中知识图谱体系是知识图谱的骨架，决定了我们采用什么样的方式来组织和表达知识，数据生产流程是知识图谱构建的核心内容，主要包括下载平台，抽取平台，知识规整模块，知识融合模块，知识推理模块，实体重要度计算模块等。Topbase 应用层涉及知识问答（基于 topbase 的 KB-QA 准确率超 90%），实体链接（2017 图谱顶级赛事 KBP 双料冠军），相关实体推荐等。

图2 知识图谱Topbase的技术框架

下载平台-知识更新：下载平台是知识图谱获取源数据平台，其主要任务包括新实体的发现和新实体信息的下载。
抽取平台-知识抽取：下载平台只负责爬取到网页的源代码内容，抽取平台需要从这些源码内容中生成结构化的知识，供后续流程进一步处理。
知识规整：通过抽取平台以及合作伙伴提供的数据我们可以得到大量的多源异构数据。为了方便对多源数据进行融合，知识规整环节需要对数据进行规整处理，将各路数据映射到我们的知识体系中。
知识融合：知识融合是对不同来源，不同结构的数据进行融合，其主要包括实体对齐和属性融合。
知识推理：由于处理数据的不完备性，上述流程构建的知识图谱会存在知识缺失现象（实体缺失，属性缺失）。知识推理目的是利用已有的知识图谱数据去推理缺失的知识，从而将这些知识补全。此外，由于已获取的数据中可能存在噪声，所以知识推理还可以用于已有知识的噪声检测，净化图谱数据。
实体知名度计算：最后，我们需要对每一个实体计算一个重要性分数，这样有助于更好的使用图谱数据。比如：名字叫李娜的人物有网球运动员，歌手，作家等，如果用户想通过图谱查询“李娜是谁”那么图谱应该返回最知名的李娜（网球运动员）。

三、知识体系构建

知识体系的构建是指采用什么样的方式来组织和表达知识，核心是构建一个本体（或 schema）对目标知识进行描述。在这个本体中需要定义：1）知识的类别体系（如：图 1 中的人物类，娱乐人物，歌手等）；2）各类别体系下实体间所具有的关系和实体自身所具有的属性；3）不同关系或者属性的定义域，值域等约束信息（如：出生日期的属性值是 Date 类型，身高属性值应该是 Float 类型，简介应该是 String 类型等）。我们构建 Topbase 知识体系主要是以人工构建和自动挖掘的方式相结合，同时我们还大量借鉴现有的第三方知识体系或与之相关的资源，如：Schema.org、Dbpedia、大词林、百科（搜狗）等。知识体系构建的具体做法：

首先是定义概念类别体系：概念类别体系如图 1 的概念层所示，我们将知识图谱要表达的知识按照层级结构的概念进行组织。在构建概念类别体系时，必须保证上层类别所表示的概念完全包含下层类别表示的概念，如娱乐人物是人物类的下层类别，那么所有的娱乐人物都是人物。在设计概念类别体系时，我们主要是参考 schema.org、DBpedia 等已有知识资源人工确定顶层的概念体系。同时，我们要保证概念类别体系的鲁棒性，便于维护和扩展，适应新的需求。除了人工精心维护设计的顶层概念类别体系，我们还设计了一套上下位关系挖掘系统，用于自动化构建大量的细粒度概念（或称之为上位词），如：《不能说的秘密》还具有细粒度的概念：“青春校园爱情电影”，“穿越电影”。
其次是定义关系和属性：定义了概念类别体系之后我们还需要为每一个类别定义关系和属性。关系用于描述不同实体间的联系，如：夫妻关系（连接两个人物实体），作品关系（连接人物和作品实体）等；属性用于描述实体的内在特征，如人物类实体的出生日期，职业等。关系和属性的定义需要受概念类别体系的约束，下层需要继承上层的关系属性，例如所有歌手类实体应该都具有人物类的关系和属性。我们采用半自动的方式生成每个概念类别体系下的关系属性。我们通过获取百科 Infobox 信息，然后将实体分类到概念类别体系下，再针对各类别下的实体关系属性进行统计分析并人工审核之后确定该概念类别的关系属性。关系属性的定义也是一个不断完善积累的过程。
定义约束：定义关系属性的约束信息可以保证数据的一致性，避免出现异常值，比如：年龄必须是 Int 类型且唯一（单值），演员作品的值是 String 类型且是多值。

四、下载平台-知识更新

知识更新主要包括两方面内容，一个是新出现的热门实体，需要被及时发现和下载其信息，另一个是关系属性变化的情况需要对其值进行替换或者补充，如明星的婚姻恋爱关系等。知识更新的具体流程如下图所示：

图3 Topbase知识更新流程图

针对热门实体信息的更新策略主要有：

从各大站点主页更新，定时遍历重点网站种子页，采用广搜的方式层层下载实体页面信息；
从新闻语料中更新，基于新闻正文文本中挖掘新实体，然后拼接实体名称生成百科 URL 下载；
从搜索 query log 中更新，通过挖掘 querylog 中的实体，然后拼接实体生成百科 URL 下载。基于 querylog 的实体挖掘算法主要是基于实体模板库和我们的 QQSEG-NER 工具；
从知识图谱已有数据中更新，知识图谱已有的重要度高的实体定期重新下载；
从人工运营中更新，将人工（业务）获得的 URL 送入下载平台获取实体信息；
从相关实体中更新，如果某个热门实体信息变更，则其相关实体信息也有可能变更，所以需要获得热门实体的相关实体，进行相应更新。

表 1 最近 7 日下载数据统计情况

2.针对其他关系属性易变的情况，我们针对某些重要关系属性进行专项更新。如明星等知名人物的婚姻感情关系我们主要通过事件挖掘的方式及时更新，如：离婚事件会触发已有关系“妻子”“丈夫”变化为“前妻”“前夫”，恋爱事件会触发“男友”“女友”关系等。此外，基于非结构化抽取平台获得的三元组信息也有助于更新实体的关系属性。

五、抽取平台 - 知识抽取

Topbase 的抽取平台主要包括结构化抽取，非结构化抽取和专项抽取。其中结构化抽取主要负责抽取网页编辑者整理好的规则化知识，其准确率高，可以直接入库。由于结构化知识的局限性，大量的知识信息蕴含在纯文本内容中，因此非结构化抽取主要是从纯文本数据中挖掘知识弥补结构化抽取信息的不足。此外，某些重要的知识信息需要额外的设计专项策略进行抽取，比如：事件信息，上位词信息（概念），描述信息，别名信息等。这些重要的知识抽取我们统称专项抽取，针对不同专项的特点设计不同的抽取模块。

1. 结构化抽取平台

许多网站提供了大量的结构化数据，如（图 4 左）所示的百科 Infobox 信息。这种结构化知识很容易转化为三元组，如：“<姚明，妻子，叶莉>”。针对结构化数据的抽取，我们设计了基于 Xpath 解析的抽取平台，如（图 4 右）所示，我们只需要定义好抽取网页的种子页面如：baike.com,然后从网页源码中拷贝 Infobox 中属性的 xpath 路径即可实现结构化知识的自动抽取，入库。通过结构化抽取平台生成的数据准确率高，因此无需人工参与审核即可直接入库，它是知识图谱的重要数据来源。

图4 Topbase结构化抽取平台的xpath配置界面

非结构化抽取平台

由于大量的知识是蕴含在纯文本中，为了弥补结构化抽取信息的不足，我们设计了非结构化抽取平台。非结构化抽取流程如图 5 所示：

图5 Topbase非结构化抽取平台的技术框架

首先我们获取知识图谱中重要度高的实体名构建 Tri 树，然后回标新闻数据和百科正文数据，并将包含实体的句子作为候选抽取语料（新闻和百科数据需要区别对待，新闻数据往往包含最及时和最丰富的三元组信息，百科数据质量高，包含准确的知识，且百科摘要或正文描述相对简单，抽取结果的准确率高）。

然后，我们利用 Topbase 的实体链接服务，将匹配上的实体链接到知识库的已有实体中，避免了后期的数据融合。比如：实体“李娜”匹配到一句话是“歌手李娜最终归一了佛门”，那么这句话中的李娜会对应到知识库中的歌手李娜，而不是网球李娜，从这句话中抽取的结果只会影响歌手李娜的。实体链接之后，我们将候选语料送入我们的抽取服务，得到实体的三元组信息。

最后，三元组结果会和知识库中已有的三元组数据进行匹配并给每一个抽取得到的三元组结果进行置信度打分，如果知识库已经存在该三元组信息则过滤，如果知识库中三元组和抽取得到的三元组发生冲突则进入众包标注平台，如果三元组是新增的知识则根据他们的分值决定是否可以直接入库或者送入标注平台。此外，标注平台的结果数据会加入到抽取服务中 Fine-tune 模型，不断提升抽取模型的能力。

上述流程中的核心是抽取服务模块，它是非结构化抽取策略的集合。抽取服务构建流程如图 6 所示，其主要包括离线模型构建部分以及在线服务部分。离线模型构建的重点主要在于如何利用远监督的方式构建抽取模型的训练数据以及训练抽取模型。在线流程重点是如何针对输入的文本进行预处理，走不同的抽取策略，以及抽取结果的后处理。针对不同属性信息的特点，抽取策略主要可以简单归纳为三大类方法：

基于规则的抽取模块：有些属性具有很强的模板（规则）性质，所以可以通过人工简单的配置一些模板规则就可以获得高准确率的三元组结果。一般百科摘要文本内容描述规范，适合于规则抽取的输入数据源。此外，适用于规则抽取的属性主要有上位词，别名，地理位置，人物描述 tag 等。当然，规则模块召回有限往往还得搭配模型抽取模块，但是规则模块结果适合直接入库，无需标注人员审核。
基于 mention 识别+关系分类模块：基本思想是先用 NER 或者词典匹配等方式识别出句子中的 mention，然后利用已有的实体信息以及识别出来的 mention 进行属性分类。举例：给定识别出 mention 的句子“腾讯公司是由马化腾创立的。”,用 schema 对输入进行调整，一种情况是 org 作为头实体，per 作为尾实体，那么该样本的分类结果是关系“创始人”，另一种情况是 per 作为头实体，org 作为尾实体，那么该样本的分类结果是“所属公司”，所以最终可以得到三元组<腾讯，创始人，马化腾>和<马化腾，所属公司，腾讯>。一般人物，地点，机构，影视剧，时间等实体可以利用 qqseg-ner 识别。词典性质的实体如：职业，名族，国籍，性别等适合于词典匹配的方式识别。
基于序列标注模块：此外，还有许多属性值是无法进行 mention 识别，因此针对这类属性，我们采用一种序列标注的联合抽取方式来同时识别实体的属性值以及属性。这类属性主要有人物的“主要成就”信息，人物的描述 tag 信息，以及一些数值型属性信息。

图6 Topbase的非结构化抽取服务

3. 专项抽取

专项抽取模块主要是针对一些重要知识的抽取。目前知识图谱设计的专项抽取内容主要有：上位词抽取（概念），实体描述抽取，事件抽取，别名抽取等。

1 ) 上位词抽取: 上位词可以理解为实体细粒度的概念，有助于更好的理解实体含义。图 7 是构建上位词图谱的一个简要流程图，其中主要从三路数据源中抽取上位词数据，主要包括：知识图谱的属性数据，百科人工标注 Tag，纯文本语料。由于抽取得到的上位词表述多样性问题，所以需要在抽取后进行同义上位词合并。此外，抽取生成的上位词图谱也会存在着知识补全的问题，所以需要进一步的进行图谱的连接预测，进行上位词图谱的补全。

图7 上位词抽取流程

2) 实体描述 tag 抽取: 实体描述 tag 是指能够描述实体某个标签的短句，图 7 是从新闻文本数据中挖掘到的实体“李子柒”的部分描述 tag。描述 tag 目前主要用于相关实体推荐理由生成，以及搜索场景中实体信息展示。描述 tag 抽取的核心模块以 QA-bert 为主的序列标注模型，query 是给定的实体信息，答案是句子中的描述片段。此外，还包括一系列的预处理过滤模块和后处理规整过滤模块。

图8 描述tag的示列说明

3)事件抽取: 事件抽取的目的是合并同一事件的新闻数据并从中识别出事件的关键信息生成事件的描述。事件抽取的基本流程如图 8 所示。

图9 Topbase的事件抽取流程框图

预处理阶段主要是对新闻流数据按照实体进行分堆处理。
事件聚类阶段主要是对每一堆的新闻数据进行关键词的提取等操作，将堆内的新闻进一步的聚类。
事件融合主要包括同批次事件融合和增量事件融合。事件抽取流程是分批次对输入数据进行处理。同批次事件融合主要解决不同实体属于同一事件的情况，将前一步得到的类簇进行合并处理。增量事件融合是将新增的新闻数据和历史 Base 的事件库进行增量融合。
最后，我们需要识别每一个事件类簇中的事件元素，过滤无效事件，生成事件的描述。

六、知识规整 - 实体分类

知识规整目的是将实体数据映射到知识体系，并对其关系属性等信息进行去噪，归一化等预处理。如图 9 所示，左侧是从百科页面获取的武则天人物信息，右侧是从电影相关网站中获得的武则天信息，那么左侧的“武则天”应该被视为“人物类--历史人物--帝王”，右侧“武则天”应该被视为“作品--影视作品--电影”。左侧人物的“民族”属性的原始名称为“民族族群”，所以需要将其规整为 schema 定义的“民族”，这称之为属性归一。此外，由于不同来源的数据对实体名称会有不同的注释，如豆瓣的“武则天”这部电影后面加了一个年份备注，所以我们还需要对实体名进行还原处理等各种清洗处理。知识规整的核心模块是如何将实体映射到知识体系，即实体分类。

图10 数据规整的示列说明

1. 实体分类的挑战：

概念类别多（200+类），具有层次性，细分类别差异小（电影，电视剧）；
实体属性存在歧义：

图11 实体分类中属性歧义问题

实体名称或者实体简介信息具有迷惑性：例如实体"菅直人"是一个政治家，其名称容易和民族类别混淆，电影“寄生虫”简介如下图所示，其内容和人物概念极其相似。

图12 实体分类中简介迷惑性问题

2.实体分类方法：实体分类本质是一个多分类问题。针对知识库的特点以及上述挑战，我们分别从训练样本构建，特征选择以及模型设计三方面实现实体分类模块。

1 ）实体分类的训练样本构建：

图13 实体分类训练数据构建流程

属性规则模块：每个实体页面包含了实体结构化属性信息，利用这些属性字段可以对实体进行一个规则的分类。如：人物类别的实体大多包含民族，出生日期，职业等字段，歌手类实体的职业字段中可能有“歌手”的属性值。通过构建正则式规则，可以批量对实体页面进行分类。基于规则模块得到的类别信息准确率高，但是泛化能力弱，它的结果既可以作为后续分类模型的训练数据 1 也可以作为实体分类的一路重要分类结果。

图14 Topbase中用于实体分类的属性规则配置页面

简介分类模块：简介分类模块以规则模块的数据作为训练数据，可以得到一个以简介为实体分类依据的分类模型，然后基于该模型预测属性规则模块无法识别的实体，选择高置信度的结果作为训练数据 2。
自动构建的训练数据去噪模块：基于规则和简介分类模块可以得到部分分类样本，但是这些训练样本不可避免的会引入噪声，所以我们引入 N-折交叉训练预测自清洗数据，进一步保留高置信的训练样本，清洗思路如下图所示。

图15 实体分类训练数据自清洗流程

运营模块：运营模块主要包括日常 badcase 收集以及标注人员审核的预测置信度不高的样本。运营数据会结合自动构建数据，联合训练最终的实体分类模型。

2）实体分类的特征选择：

属性名称：除了通用类的属性名称，如：中文名，别名，正文，简介等，其他属性名称都作为特征；
属性值：不是所有的属性值都是有助于实体分类，如性别的属性值“男”或者“女”对区分该实体是“商业人物”和“娱乐人物”没有帮助，但是职业的属性值如“歌手”“CEO”等对于实体的细类别则有很强的指示作用，这些属性值可以作为实体细分类的重要特征。一个属性值是否需要加入他的属性值信息，我们基于第一部分得到的训练数据，利用特征选择指标如卡方检验值，信息增益等进行筛选。
简介：由于简介内容相对较长且信息冗余，并非用得越多越好。针对简介的利用我们主要采用百科简介中头部几句话中的主语是该实体的句子。

3）实体分类模型

模型架构：基于 bert 预训练语言模型的多 Label 分类模型

图16 实体分类基础模型

模型输入：我们针对上述特征进行拼接作为 bert 的输入，利用[sep]隔开实体的两类信息，每一类信息用逗号隔开不同部分。第一类信息是实体名称和实体简介，刻画了实体的一个基本描述内容，第二类信息是实体的各种属性，刻画了实体的属性信息。例如，刘德华的输入形式如下：
图17 实体分类模型的输入形式

模型 loss：基于层次 loss 方式，实体 Label 是子类：父类 Label 要转换为正例计算 loss；实体 Label 是父类：所有子类 label 以一定概率 mask 不产生负例 loss，避免训练数据存在的细类别漏召回问题。

七、知识融合 - 实体对齐

知识融合的目的是将不同来源的数据进行合并处理。如从搜狗百科，体育页面以及 QQ 音乐都获取到了"姚明"信息，首先需要判断这些来源的"姚明"是否指同一实体，如果是同一个实体（图 18 中的搜狗和虎扑的姚明页面）则可以将他们的信息进行融合，如果不是（QQ 音乐的姚明页面）则不应该将其融合。知识融合的核心是实体对齐，即如何将不同来源的同一个实体进行合并。

图18 知识融合示列说明

1. 实体对齐挑战

不同来源实体的属性信息重叠少，导致相似度特征稀疏，容易欠融合；

图19 来自于百科和旅游网站的武夷山页面信息

同系列作品（电影，电视剧）相似度高，容易过融合，如两部还珠格格电视剧

图20 两部还珠格格的信息内容

多路来源的实体信息量很大（亿级别页面），如果每次进行全局融合计算复杂度高，而且会产生融合实体的 ID 漂移问题。

2. 实体对齐的解决思路

实体对齐的整体流程如图所示，其主要环节包括数据分桶，桶内实体相似度计算，桶内实体的聚类融合。

图21 Topbase实体对齐流程图

1)数据分桶：数据分桶的目的是对所有的多源实体数据进行一个粗聚类，粗聚类的方法基于简单的规则对数据进行分桶，具体规则主要是同名（原名或者别名相同）实体分在一个桶内，除了基于名称匹配，我们还采用一些专有的属性值进行分桶，如出生年月和出生地一致的人物分在一个桶。

2)实体相似度计算：实体相似度直接决定了两个实体是否可以合并，它是实体对齐任务中的核心。为了解决相似属性稀疏导致的欠融合问题，我们引入异构网络向量化表示的特征，为了解决同系列作品极其相似的过融合问题，我们引入了互斥特征。

异构网络向量化表示特征：每个来源的数据可以构建一个同源实体关联网络，边是两个实体页面之间的超链接，如下图所示，百科空间可以构建一个百科实体关联网络，影视剧网站可以构建一个影视剧网站的实体关联网络。不同空间的两个实体，如果存在高重合度信息，容易判别二者相似度的两个实体，可以建立映射关系（如影视剧网站的梁朝伟页面和百科的梁朝伟页面信息基本一致，则可以认为二者是同一个实体，建立链接关系），这样可以将多源异构网络进行合并，梁朝伟和刘德华属于连接节点，两个无间道重合信息少，则作为两个独立的节点。然后基于 deepwalk 方式得到多源异构网络的节点向量化表示特征。

图22 多源异构网络关联图

文本相似特征：主要是针对存在简介信息的实体，利用 bert 编码得到向量，如果两个实体都存在简介信息，则将两个简介向量进行点乘得到他们的文本相似度特征；
基本特征：其他属性的相似度特征，每一维表示属性，每一维的值表示该属性值的一个 Jaccard 相似度；
互斥特征：主要解决同系列作品及其相似的问题，人工设定的重要区分度特征，如电视剧的集数，系列名，上映时间。
最后，按照下图结构将上述相似度特征进行融合预测两两实体是否是同一实体；

图23 实体对相似度打分模块

3) 相似实体的聚类合并：

Base 融合：在上述步骤的基础上，我们采用层次聚类算法，对每一个桶的实体进行对齐合并，得到 base 版的融合数据，然后赋予每一个融合后的实体一个固定的 ID 值，这就得到了一个 Base 的融合库；
增量融合：对于每日新增的实体页面信息，我们不再重新进行聚类处理，而是采用“贴”的模式，将每一个新增实体页面和已有的融合实体进行相似度计算，判断该实体页面应该归到哪一个融合实体中，如果相似度都低于设置的阈值，则该新增实体独立成一堆，并设置一个新的融合实体 ID。增量融合的策略可以避免每次重复计算全量实体页面的融合过程，方便数据及时更新，同时保证各个融合实体的稳定性，不会轻易发生融合实体 ID 的漂移问题；
融合拆解：由于 Base 融合可能存在噪声，所以我们增加了一个融合的修复模块，针对发现的 badcase，对以融合成堆的实体进行拆解重新融合，这样可以局部修复融合错误，方便运营以及批量处理 badcase。

八、知识关联和推理

知识关联（链接预测）是将实体的属性值链接到知识库的实体中，构建一条关系边，如图 24 所示“三国演义”的作者属性值是“罗贯中”字符串，知识关联需要将该属性值链接到知识库中的实体“罗贯中”，这样实体“三国演义”和“罗贯中”之间存在一条“作者”的关系边。

图24 基于超链接关联的示列说明

Topbase 的知识关联方案分为基于超链接的关联和基于 embedding 的文本关联两种方式。超链接关联是 Topbase 进行关联和推理的第一步，它是利用网页中存在的超链接对知识图谱中的实体进行关联，如百科“三国演义”页面中，其“作者”属性链接到“罗贯中”的百科页面（如图 24 所示），基于这种超链接的跳转关系，可以在 Topbase 的实体之间建立起一条边关系，如该示列会在实体“三国演义”与“罗贯中”之间生成一条“作者”关系，而“曹操”并没有该超链接，所以三国演义的主要人物属性中的字符串“曹操”不会关联到具体的实体页面中。在进行超链接关联之前，Topbase 中的实体是一个个孤立的个体，超链接关联为知识图谱补充了第一批边关系，但是超链接关联无法保证链接的覆盖率。

基于此，Topbase 提出基于 embedding 的文本关联。基于 embedding 的文本关联是在已知头实体、关系的基础上，在候选集中对尾实体进行筛选，尾实体的候选集是通过别名匹配召回。如上述百科示列中的“主要人物”属性，我们利用其属性值字符串”曹操“去 Topbase 库里匹配，召回所有和”曹操”同名称的实体作为建立链接关系的候选。然后利用知识库 embedding 的方法从候选实体中选择最相似的实体作为他的链接实体。基于文本名称的匹配召回候选可以大大提高知识库 embeding 方法的链接预测效果。基于 embedding 的链接关系预测是通过模型将实体和关系的属性信息、结构信息嵌入到一个低维向量中去，利用低维向量去对缺失的尾实体进行预测。

当前采用的嵌入模型是 TextEnhanced+TransE，模型结构如图 25 所示。TransE 是将实体与关系映射到同一向量空间下，它是依据已有的边关系结构对实体之间的边关系进行预测，对孤立实体或链接边较少的实体预测效果较差。为了引入文本信息，解决模型对孤立实体预测的难题，模型使用 TextEnhanced 对文本信息进行嵌入。TextEnhanced 通过 NN 模型对文本信息嵌入后，利用 Attention 机制将文本信息嵌入到 Trans 系列的实体向量中，进而对尾实体进行预测。

图25 TextEnhanced+TransE结构图

由于知识关联是在已知属性值的前提下，通过名称匹配的方式得到关联实体的候选集，所以知识关联无法补充缺失属性值的链接关系。如上图中“三国演义”的信息中并没有“关羽”，知识推理目的是希望能够挖掘“三国演义”和“关羽”的潜在关系。为了保证图谱数据的准确率，Topbase 的知识推理主要以规则推理为主，具体的规则方法可以归纳为以下几类：

伴随推理是在已经被链接的两个实体之间，根据两个实体的属性信息，发现两者间蕴含的其它关系。例如实体 A 已经通过“配偶”关系与实体 B 相连，实体 A 的性别为“男”，实体 B 的性别为“女”，则伴随推理会生成一条“妻子”关系边，将实体 A 与实体 B 链接在一起，代表 B 为 A 的妻子。伴随推理的规则可以通过统计同时关联起两个实体的属性共现比例得到。

图26 伴随推理的示列说明

表2 Topbase的伴随推理规则库示列

反向推理是依据边之间的互反关系，为已经链接的两个实体再添加一条边。比如实体 A 通过“作者”边与实体 B 相连，代表实体 B 是实体 A 的作者，则可以直接生成一条从实体 B 指向实体 A 的“作品”边，代表实体 A 是实体 B 的作品，因为“作品”与“作者”是一条互反关系。反向推理与伴随推理类似，都是在已经存在边关系的实体之间，挖掘新的边关系，不同的是，伴随推理在生成边关系时需要满足一定的属性条件，如上例中的“性别”限制，而反向推理直接通过已有的边关系，无需参考其它属性值，直接生成一条互反边关系。反向推理规则可以通过统计 A-B，B-A 的属性共现数量筛选。

图27 反向推理的示列说明

表3 Topbase的反向关联规则库示列

多实体推理是在多个实体之间挖掘蕴含的边关系，是一种更复杂的关联规则，如第一种形式：A 的父亲是 B，B 的母亲是 C，则 A 的奶奶是 C，该形式通过统计 A+PATH = C，A+R0=C，情况得到规则 [PATH(R1R2)=R0]；第二种形式是 A 的母亲是 B，A 的儿子 C，则 B 的孙子是 C，该形式通过统计：A+R1 = B，A+R2=C，B+R0=C 的情况，得到规则[R1 &R2 = R0]。

图28 多实体推理的两种形式示列说明

九、实体知名度计算

实体的知名度（Popularity）指标可以用于量化不同实体的重要性程度，方便我们更好的使用图谱数据。Topbase 知识库的 popularity 计算以基于实体链接关系的 pagerank 算法为核心，以对新热实体的 popularity 调整为辅，并配以直接的人工干预来快速解决 badcase。具体地，首先抽取实体页面之间的超链接关系，以此为基础通过修改后的 pagerank 算法来计算所有实体的 popularity；对于难以通过 pagerank 算法计算的新热实体的 popularity，再进行规则干预。最后对于仍然难以解决的 case，则直接对其 popularity 值进行人工赋值。Popularity 计算模块的整体流程如下图所示：

图29 Topbase实体知名度计算流程

多类型边关系的 pagerank 算法： 基于链接关系的 popularity 计算方法的出发点在于：一个实体 A 对另一个实体 B 的引用（链接），表示实体 A 对于实体 B 的认可，链接到 B 的实体越多，表示 B 受到的认可越多，由此推断它的知名度也就越高。但实际上有很多的链接关系并不是出于“认可”而产生的，只是简单的表示它们之间有某种关系。比如歌手与专辑、音乐之间的各种关系。一个专业的音乐网站会收录歌手、专辑、音乐之间的完整从属关系，这会导致同一个歌手或同一张专辑之内的热门歌曲与其它歌曲之间没有任何区分性。并且由于这几类实体之间高密度的链接关系，会导致它们的计算结果比其它类别的实体的都高出很多。
因此有必要对实体之间不同的链接关系进行区别对待。与最基础的 pagerank 算法的不同在于：实体之间可以有多条边，且有多种类型的边。在进行迭代计算的过程中，不同类型的边对流经它的概率分布会有不同程度的拟制作用。之所以进行这样的修改，是因为知识库中实体的信息有多种不同的来源。有的实体来源于通用领域百科，有的实体来源于垂类领域网站等。甚至同一个实体内部，不同的属性信息也会有不同的来源。由此，实体之间的链接关系也会属于不同的来源。比如“刘德华”与“朱丽倩”之间的“夫妻”关系可能抽取自百科，而与“无间道”之间的“参演”关系可能来自于电影网站。不同来源的信息有着不同的可信度，有的经过人工的审核编辑，可信度很高；而有的则属于算法自动生成，会有不同程度的错误。
因此链接关系之间也有可信度的差别，无法做到将它们一视同仁地看待。其次，有的链接关系即使在可靠性方面完全正确，但它们对于 popularity 的正确计算不仅没有太大帮助，反而会导致 popularity 的计算结果与预期不符。修改后的 pagerank 算法的计算过程与基础 pagerank 算法基本一致，只是在进行分布概率的流转时有所区别。下面进行举例说明：

图30 多类型边的PageRank算法说明

实体 A 指向实体 B、C、D。其与 B 之间的链接类型为 X，与 C 之间的链接类型为 Y，与 D 之间的为 Z。通过先验知识或实验总结，我们认为链接类型 Y 可信性不高，相比于 X，对 rank 值的流转有拟制作用，因此对其赋予一个系数 0.8，Z 的可信度很准确，但其性质与上述的音乐网站的关系类似，因此对于其赋予一个系数 0.2，而 X 类型的完全可行，其系数则为 1.0。在某一迭代阶段，实体 A 的 rank 值为 3，B、C、D 的 rank 值分别为 4、2、3。由于 A 有 3 条出边，因此到 B、C、D 的初始流出值均为 3/ 3 = 1。加上系数的影响，实际到 C、D 的流出值分别为 0.8 和 0.2，未流出的剩余值为(1 -0.8) + (1 - 0.2) = 1.0。

因此迭代过后，B、C、D 的 rank 值分别为 4 + 1.0 = 5，2 + 0.8= 2.8，3 + 0.2 =3.2，而 A 的 rank 值需要在所有指向它的实体流入到它的值之和的基础上，再加上未流出的 1.0。

新热实体的 Popularity 调整：新热实体的含义为最新出现的热门实体。这类实体需要较高的 popularity 值。但由于是新近出现的实体，其与其它实体的链接关系非常匮乏，因此无法通过基于实体链接关系的这类方法来计算。对此我们采取的方案侧重于对新热实体的发现，然后对发现的新热实体的 popularity 进行调整，使其 popularity 值在同名实体中处于最高的位置。新热实体的发现目前基于两类方法：一类方法发现的热门实体可以直接对应到知识库中的某个实体，另一个方法只能发现热门的实体名，需要通过一些对齐方法与知识库中的某个实体关联起来。
第一种方法从 Topbase 监控的重点网站页面中直接获取最近热门的实体。这种方法获取的实体可以直接通过 url 与知识库中的某个实体准确无误地关联起来。第二类方法首先发现一些热门的实体名，包括：一、从微博热搜榜中爬取热门话题，通过命名实体识别方法识别其中的人名和机构名，将其作为热门实体名；二、将新闻中每天曝光的高频次标签作为实体名。以上两种方法发现的实体名带有一定的附加信息，通过实体链接可以将其对齐到知识库中的某个实体。

十、知识库的存储和查询

知识图谱是一种典型的图结构数据集合，实体是图中的节点，关系（属性）是带有标签的边。因此，基于图结构的存储方式能够直接正确地反映知识图谱的内部结构，有利于知识的查询。如下图所示，红色圈代表实体，实线是边（妻子），表示实体间的关系，如“刘德华的妻子是朱丽倩”，虚线是属性（出生日期），表示实体具有的属性，如“刘德华的出生日期是 1961 年 9 月 27 日”。

图31 图数据说明

Topbase 知识图谱的存储是基于分布式图数据库 JanusGraph，选择 JanusGraph 的主要理由有：1）JanusGraph 完全开源，像 Neo4j 并非完全开源；2）JanusGraph 支持超大图，图规模可以根据集群大小调整；3）JanusGraph 支持超大规模并发事务和可操作图运算，能够毫秒级的响应在海量图数据上的复杂的遍历查询操作等。

Topbase基于JanusGraph存储查询架构如下：

图32 基于JanusGraph的存储查询系统

Graph_Loader 模块主要是将上述数据生产流程得到的图谱数据转换为 JanusGraph 存储要求的格式，批量的将图谱数据写入图数据库存储服务中，以及相关索引建立。
图数据库存储服务：JanusGraph数据存储服务可以选用 ScyllaDb、HBase 等作为底层存储，topbase 选用的是 ScyllaDb。Graph_loader 会每天定时的将数据更新到图数据库存储服务。
图数据库索引：由于 JanusGraph 图数据库存储服务只支持一些简单查询，如：“刘德华的歌曲”，但是无法支持复杂查询，如多条件查询：“刘德华的 1999 年发表的粤语歌曲”。所以我们利用 Es 构建复杂查询的数据索引，graph_loader 除了批量写入数据到底层存储之外，还会建立基于复杂查询的索引。
图数据库主服务：主服务通过 Gremlin 语句对图数据库的相关内容进行查询或者改写等操作。

十一、总结

由于知识图谱的构建是一项庞大的数据工程，其中各环节涉及的技术细节无法在一篇文档中面面俱到。本文主要梳理 Topbase 构建过程中的技术经验，从 0 到 1 的介绍了图谱构建流程，希望对图谱建设者有一定的借鉴意义。

你可能感兴趣的:(万字详解：腾讯如何自研大规模知识图谱 Topbase)

如何在亚马逊上避免账户关联风险？全面解析与实用策略跨境猫小妹大数据
亚马逊账户关联问题无疑是卖家们心中的一块大石头，一旦触发关联风险，不仅可能影响流量和销量，还可能导致账户被冻结甚至封号。那么，如何有效规避这些风险，确保业务的稳定和安全呢？本文将从关联的原理出发，为您提供全方位的防关联操作流程解析。亚马逊关联风险：是什么，为什么重要？亚马逊规定，一个卖家原则上只能拥有一个账户，除非获得官方批准的多账户权限。关联风险，简而言之，就是亚马逊通过技术手段识别出多个账户属
2025 最新flutter面试总结 @福者 Flutter flutter 面试职场和发展
目录1.Dart是值传递还是引用传递？2.Flutter是单引擎还是双引擎3.StatelessWidget和StatefulWidget在Flutter中有什么区别？4.简述Dart语音特性5.Navigator是什么？在Flutter中Routes是什么？6、Dart是不是单线程模型？是如何运行的？7.解释StatefulWidgetLifecycle？8.Dart的事件循环的运行遵循以下规则
http Accept-Encoding “gzip,deflate,br“ qt c++ 解码爱学习的大牛123 qt开发 windows qt http zip
QtC++处理HTTP请求，并需要解码服务器返回的压缩数据。以下是如何在QtC++中处理这种情况的指南：1.首先，确保您的HTTP请求头中包含了`Accept-Encoding:gzip,deflate,br`，这表明客户端可以接受这些压缩方式。2.当收到服务器响应时，检查`Content-Encoding`头，以确定使用了哪种压缩方法。3.根据压缩方法，使用相应的Qt类来解压数据：-对于gzip
前端版本号管理：理解和应用山禾女鬼001 前端
在前端开发中，版本号管理是一个非常重要的话题。它涉及到如何标记和管理应用、库、框架以及依赖项的版本，确保开发者和团队成员之间能够协调一致地进行开发，避免因版本冲突带来的问题。今天，我们将深入探讨版本号的基本概念，常见的版本号规范，以及在前端开发中如何使用版本号。一、什么是版本号？版本号是用来标识软件或应用的不同发布版本的一个数字序列。它能够帮助开发者、维护人员和用户区分不同版本之间的差异，明确功能
Go语言从入门到精通：一站式学习指南写代码写到不能自控 golang 开发语言后端
Go语言（也称Golang）自2009年由Google推出以来，凭借其简单、并发支持、以及高效的性能，迅速成为开发者的宠儿。它被广泛应用于Web开发、微服务架构、云计算等领域，并且得到了大量开发者的追捧。如果你是Go语言的初学者，或者已经有一定编程经验的开发者，那么这篇博客将帮助你从Go语言的入门知识学起，逐步深入，最终达到精通的水平。一、Go语言概述1.1什么是Go语言？Go语言是由Google
uniapp - [全端兼容] 实现精美Editor富文本编辑器功能，uniApp全平台兼容的富文本插件组件用户可上传图片及对接服务器存储文件等，手机移动端H5网页富文本/小程序富文本/App富文本！王二红 +UniApp uni-app 富文本使用富文本编辑器插入图片图像 uni-app微信小程序富文本 uniapp网页h5端富文本 uniap安卓苹果app富文本富文本上传图片及服务器保存
前言网上的教程乱七八糟且兼容性太差，本文提供优质示例。在uni-app全平台兼容（H5网页网站、支付宝/微信小程序、安卓App、苹果App、nvue）开发中，详解引入使用富文本编辑器及图片上传显示等功能，用户可上传图片显示和服务器保存回显效果（插入图片），uniApp各平台都兼容的富文本editor插件，自定义富文本按钮功能及自由排版样式布局，uniapp富文本组件插件用于发布文章/发布资讯公告/
解锁C#泛型：代码世界的万能钥匙步、步、为营 c#前端 .net .netcore
一、引言：开启泛型大门在C#的编程世界中，我们常常面临这样的挑战：如何编写高效、灵活且可维护的代码？当需要处理不同数据类型但逻辑相似的情况时，如果没有合适的工具，代码可能会变得冗长、重复且难以管理。而C#泛型的出现，就像一把万能钥匙，为我们打开了通往高效编程的大门。想象一下，你正在开发一个数据处理系统，其中包含对整数、字符串和自定义对象的排序操作。在没有泛型的情况下，你可能需要为每种数据类型编写独
小程序webview打开小程序原生页面_详解如何探测小程序返回到webview页面 weixin_39905624
在公司项目中经常会遇到一个场景,尝试过各种不同的方法,最后想到了一种很技术上简单且可行的方法.经常被QA同学反应同一类型的问题项目是小程序(wepy),部分页面使用webview(vue).经常会遇见一个场景:当小程序navigateTo到一些页面对用户的"收藏状态","身材细节"做了修改后,用户点击返回按钮回到上一个页面,收藏的状态或是身材细节没有改变.那是当然的,作为一个小程序中的webvie
模型冯/诺依曼思维模型图王大胜思维模型人工智能神经网络计算机基石管理创业
系列文章分享模型，了解更多模型_思维模型目录。分解问题，创新整合，高效解决。1冯/诺依曼思维模型的应用1.1景区创建5A级旅游景区提升规划在面对如何将某个景区创建为5A级旅游景区的复杂任务时，可以采用冯诺依曼思维模型来解决这一挑战。这个案例展示了如何将一个庞大且笼统的问题拆解为可操作的小部分，并通过重新组合这些部分来形成一个完整的解决方案。任务拆解：政策层面：研究国家和地方关于旅游景区评级的相关政
uni-app组件引入方法（easycom自动化组件）约妲己吃火锅 uni-app开发搬砖日常
uniapp官方与2020年02月23更新了2.6.0版本，支持2.5.5版本以后，调整内容有：1.对uniapp插件做出更改；2.新增了easycom项目模板（自动化组件）。那我本期简单给大家介绍easycom是什么？如何使用？。官方给出：传统vue组件，需要安装、引用、注册，三个步骤后才能使用组件。easycom将其精简为一步。只要组件安装在项目的components目录下，并符合compon
Java并发编程，AQS详解图苑 java 开发语言 jvm
AbstractQueuedSynchronizer（简称AQS）是Java并发包中一个非常重要的同步框架，它为实现锁和其他同步器提供了一种标准化的方法。AQS通过内部的状态管理、FIFO队列以及对线程调度的支持，简化了锁的实现过程。许多标准库中的同步工具（如ReentrantLock、Semaphore和CountDownLatch）都是基于AQS实现的。一、AQS的基本原理1.概念AQS是一个
从单层到 MVC，再到 DDD：架构演进的思考与实践洛卡卡了面试架构设计 mvc 架构
引言在日常开发中，我们之前工作中经常接手的大多数都是传统MVC架构体系的项目。然而，随着现在分布式和微服务架构的普及，越来越多的项目开始重构、拆分，传统的MVC架构也逐渐向DDD架构演进。为什么需要将传统架构重构为DDD架构？MVC架构相比如今备受关注的DDD架构又有哪些不足？本文将探讨MVC与DDD的核心区别，分析传统架构在现代复杂业务场景中的挑战，以及DDD是如何解决这些问题的。在讨论DDD和
Python 项目国际化：使用 Babel 实现多语言支持衫水 python进阶 python
文章目录如何使用Babel实现Python项目国际化1.安装Babel2.设置项目目录结构3.标记可翻译的文本4.提取可翻译的文本生成文件——生成pot文件4.1有配置文件方式（使用`babel.cfg`）4.1.1.创建`babel.cfg`文件4.1.2.提取翻译内容4.2无配置文件方式（直接指定文件路径）5.后续步骤（通用步骤）5.1.初始化翻译文件——生成po文件5.2.编辑po文件5.3
关于python语言程序设计课本的总结 pianmian1 python 开发语言
不知不觉就学完了整本书.今天来总结一下内容吧.目录第一章:程序设计基本方法;第二章:python语言基本语法元素第三章:基本数据类型第四章:程序的控制结构第五章:函数和代码复用第一章:程序设计基本方法;本章讲述了程序设计的基本语言概述与python语言特点.讲述了如何正确安装python程序.介绍了python语言的优点:语法简介,生态丰富,多语言集成,平台无关,强制可读,支持中文,模式多样等.并
clean code阅读笔记——如何命名？ HilariousDog 代码质量笔记 windows
命名的原则1.“小处诚实非小事“有个词叫做”以小见大“。以建筑作喻，宏大建筑中最细小的部分，比如关不紧的门、未铺平的地板，甚至时凌乱的桌面，都会将整个大局的魅力毁灭殆尽，这就是整洁代码之所系。2.有意义的命名选个好名字，省下来的时间比花掉的多。一旦发现有更好的名字，就换掉旧的名字。2.1名副其实变量、函数和类的名字应该告诉读者：它为什么存在、它做什么事、它应该怎么用。如果名称需要注释来补充，那就不
【Uniapp-Vue3】request各种不同类型的参数详解永久旅途 Uniapp uni-app 前端
一、参数携带我们调用该接口的时候需要传入type参数。第一种路径名称?参数名1=参数值1&参数名2=参数值2第二种uni.request({url:"请求路径",data:{参数名:参数值}})二、请求方式常用的有get，post和put三种，默认是get请求。uni.request({url:"请求路径",method:"方式"})三、请求头配置uni.request({url:"请求路径",h
ArcGis批量导出地图杨汶达@ ArcGis arcgis
ArcGIS软件从诞生之日起就引领着地理信息系统技术的潮流，极大地提高了制图的质量和效率，目前可以满足大多数用户的需求。但是在具有部分行业特色或存在大量重复工作的应用需求中，仅凭ArcGIS软件来完成制图工作不仅费时费力，而且工作量可能超过了可承受范围。因此，通过编程来实现自动化制图技术，则可以起到事半功倍的效果。以林地征占用项目使用林地现状图制图为例，介绍如何使用Python编写代码，利用Arc
MySQL时间戳与日期格式的相互转换 DfsnVue mysql 数据库
在MySQL数据库中，时间戳（timestamp）和日期格式（dateformat）是常用的数据类型。时间戳表示从1970年1月1日零时到特定日期时间的秒数，而日期格式则以年-月-日的形式表示日期。在MySQL中，我们可以使用函数来相互转换时间戳和日期格式。下面我将详细介绍如何进行这些转换，并提供相应的源代码示例。将时间戳转换为日期格式要将时间戳转换为日期格式，在MySQL中可以使用FROM_UN
【微信小程序】page.json配置-easycom引入自定义组件墨夶微信小程序微信小程序 json 小程序
在微信小程序中，page.json文件不仅可以用于配置单个页面的样式和其他属性，还可以用于配置easycom模式，以简化自定义组件的引入和使用。easycom模式允许开发者在不进行手动引入和注册的情况下，直接在页面中使用自定义组件。本文将详细介绍如何在page.json文件中配置easycom模式，并提供一些最佳实践。1.easycom模式简介easycom模式是UniApp提供的一种组件自动注册
MarsCode算法题之补给站最优花费问题 xiao--xin 豆包MarsCode算法题算法 java 动态规划 MarsCode
1.问题描述小U计划进行一场从地点A到地点B的徒步旅行，旅行总共需要M天。为了在旅途中确保安全，小U每天都需要消耗一份食物。在路程中，小U会经过一些补给站，这些补给站分布在不同的天数上，且每个补给站的食物价格各不相同。小U需要在这些补给站中购买食物，以确保每天都有足够的食物。现在她想知道，如何规划在不同补给站的购买策略，以使她能够花费最少的钱顺利完成这次旅行。M：总路程所需的天数。N：路上补给站的
AI如何帮助解决生活中的琐碎难题？ HUIBUR科技人工智能
引言：AI已经融入我们的日常生活你有没有遇到过这样的情况——早上匆忙出门却忘了带钥匙，到了公司才想起昨天的会议资料没有打印，或者下班回家还在纠结晚饭吃什么？这些看似微不足道的小事，往往让人疲惫不堪。而如今，人工智能（AI）的出现，正在悄然改变这一切。从语音助手到智能家居，从健康管理到购物推荐，AI正在帮助人们处理生活中的琐碎事务，让每一天变得更高效、更轻松。只需要动动嘴或者点一点手机，就能完成过去
Python SQLAlchemy库详解寒秋丶 Python python 开发语言数据库测试开发软件测试软件开发自动化测试
大家好，在Python生态系统中，SQLAlchemy库是一个强大的工具，为开发人员提供了便捷的方式来处理与数据库的交互。无论是开发一个小型的Web应用程序，还是构建一个大型的企业级系统，SQLAlchemy都能满足你的需求，并提供灵活性和性能上的优势。本文将带你深入探索SQLAlchemy库，从基础概念到高级用法，让你对其有一个全面的了解。一、介绍SQLAlchemy是Python中一个强大的开
三种国产大语言模型Python免费调用小软件大世界 python 人工智能
基础三大模型，需要先去官方注册获得key；后续可以使用下列代码调用1.腾讯安装：pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python实例：importjsonimporttypesfromtencentcloud.commonimportcredentialfromtenc
Flask教程5：flask数据库SQLAlchemy Cachel wood Flask入门教程数据库 flask oracle python 阿里云开发语言 LLM
文章目录SQLAlchemy为什么使用ORM初始化数据库配置表模型的定义与数据库映射数据的增、删、改、查操作数据的添加数据的查找数据的修改数据的删除init_app作用详解SQLAlchemySQLAlchemy是一个基于Python实现的ORM(ObjectRelationalMapping，对象关系映射）框架。该框架建立在DBAPI(数据库应用程序接口系统)之上，使用关系对象映射进行数据库操作
云服务器拖拽文件,快捷拖动文件到远程服务器 weixin_39631370 云服务器拖拽文件
快捷拖动文件到远程服务器内容精选换一换远程桌面协议(RemoteDesktopProtocol，RDP)，是微软提供的多通道的远程登录协议。本节为您介绍如何使用RDP文件远程登录Windows云服务器。从管理控制台下载的RDP文件对应唯一的云服务器，当前RDP文件命名规则为“云服务器名称-弹性IP”。云服务器状态为“运行中”。云服务器已经绑定弹性公网IP。所在安全组入方向远程连接Linux云服务器
有些网页的内容为什么不能复制暖心少年感触
有些网页的内容为什么不能复制？怎么才能将不可以复制的内容复制下来呢？估计在很多时候你会遇到很多的优美的比较实用的文章，你很想将其复制下来然后为己所用，但是可恨的是不知网页到底加了些什么东西搞得你复制不小来，如果去一个字一个字的打出来估计会浪费很多的时间，那么如何才能做到将常人不可以复制到的东西，你可以复制下来呢？下面就教教你如何做到常人无法做到的事情！要分以下几个步骤进行：1，网页中嵌入了java
基于RandomAccessFile的文件分片多线程读取的优化与拓展应用寒冰碧海 Java爬坑之路 java
一、引言在上一篇文章（原文章链接）中，我们深入探讨了利用多线程分片读取文件内容的精妙实现。通过精心设计的代码逻辑，从文件按指定位置、大小划分分片，再借助多线程并发读取，最终无缝合并内容。然而，“金无足赤”，该方法在处理超大规模文件时，暴露出一个严峻的问题——全量读取文件易导致内存溢出。当文件体量如巨兽般庞大，一股脑地将所有数据读入内存，就如同往一个有限容量的容器里拼命注水，内存占用必然超标，进而引
主流包管理工具npm、yarn、cnpm、pnpm之间的区别与联系——原理篇 2401_84091628 程序员 npm 前端 node.js
}解析，^字符，告诉npm，安装主版本等于4的任意一个版本即可现在运行npm进行安装，npm将安装lodash的主版本为4的最新版，可能是[email protected]（@是npm约定用来确定包名的指定版本的）理论上，次版本号的变化并不会影响向后兼容性。因此，安装最新版的依赖库应该是能正常工作的，而且能引入自4.17.4版本以后的重要错误和安全方面的修复。但是，即使不同的开发人员使用了相同的packa
深入了解 npm 和 pnpm：前端包管理工具的选择与比较山禾女鬼001 前端 npm node.js
在现代前端开发中，包管理工具已经成为了必不可少的组成部分。它们帮助我们管理项目的依赖、自动化任务、以及在团队协作时确保一致的开发环境。最常见的前端包管理工具有npm和pnpm，它们各自具有独特的特点和优势。今天，我们就来一起深入了解这两款工具，看看它们的异同以及在实际开发中如何选择合适的工具。一、什么是npm？npm(NodePackageManager)是目前最流行的JavaScript包管理工
从规则到神经网络：机器翻译技术的演进与未来展望 Echo_Wish 前沿技术人工智能神经网络机器翻译人工智能
从规则到神经网络：机器翻译技术的演进与未来展望引言还记得早些年用翻译软件翻译一句简单的英文句子，却发现翻译结果让人啼笑皆非的日子吗？从“我喜欢吃苹果”被翻译成“我喜欢吃苹果电脑”，到今天的神经网络机器翻译（NeuralMachineTranslation,NMT）能够生成语义流畅、接近人类水平的翻译，我们见证了机器翻译技术的巨大飞跃。但机器翻译技术是如何一步步发展到今天的？未来又将走向何方？本文将
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class