开源知识图谱介绍

中文开源知识图谱:

(1)中文通用百科知识图谱(CN-DBpedia)

介绍

CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,其前身是复旦GDM中文知识图谱。

CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据,供机器和人使用。

下载地址:

http://kw.fudan.edu.cn/cndbpedia/download/ 

这是一个项目利用进行远程监督关系抽取的项目,博主实验过一下效果还行,可以作为进一步研究的基础

https://github.com/xiaolalala/Distant-Supervised-Chinese-Relation-Extraction

 

(2)思知知识图谱(个人感觉比CN-DBpedia质量更高)

一个名为 OwnThink 的平台在 GitHub 上开源了中文知识图谱项目,这也是目前已开源的最大规模的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式,总共有 1.4 亿个三元组。

AI科技大本营(ID:rgznai100)采访了该知识图谱开源项目的算法工程师 Yener,他是开源平台 OwnThink 的作者,主要从事知识图谱、对话机器人、语义理解方面的研究。他表示,知识图谱的开发过程是一个标准的百科知识图谱构建流程,数据抽取来源于结构化数据、半结构化数据、非结构化数据,对各大百科进行抽取后,再对知识进行融合、实时更新等一系列操作。

GitHub 链接:

https://github.com/ownthink/KnowledgeGraphData

百度网盘链接:

https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp

注:解压密码是 OwnThink 首页地址:https://www.ownthink.com/

 

(3)OPENKG

OpenKG主要关注知识图谱数据(或者称为结构化数据、语义数据、知识库)的开放,广义上OpenKG属于开放数据的一种。

「知识」包含:

  1. 音乐、电影、书籍等的内容
  2. 科学、历史、地理或其他的数据
  3. 政府或其他行政信息

下载地址:

链接:http://openkg.cn/

 

英文开源知识图谱:

(1)wikidata

WikiData的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。WikiData由维基百科于2012年启动,早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会以及Google的联合资助。WikiData继承了Wikipedia的众包协作的机制,但与Wikipedia不同,WikiData支持的是以三元组为基础的知识条目(Items)的自由编辑。一个三元组代表一个关于该条目的陈述(Statements)。例如可以给“地球”的条目增加“”的三元组陈述。截止2016年,WikiData已经包含超过2470多万个知识条目。

 

Wikidata是一个大型数据库,存储了维基百科、Freebase中的海量信息。为了便于机器识别、算法调用,在存储时Wikidata将数据结构化成了固定的格式——RDF。

开源知识图谱介绍_第1张图片

知识图谱描述了现实中的对象或抽象概念,实例(entity)。每个实例对应知识图谱中的一个项(item)。比如上图就是一个项,对应的实例是一个Linux命令“cat”。

每个项都有标签(label)、描述(description)、别名(aliases)。比如上图中“cat”命令的描述为“Unix utility that concatenates and lists files”。

每个项中的具体数据被称为条目(statement),一个实例可以有许多条目,表现了实例不同方面的特征。条目由属性(property)和数值(value)构成。比如上图中“cat”命令包含了两个条目,其中一个条目的属性为“part of”,数值为“GNU Core Utilities”。

 

链接:https://www.wikidata.org/wiki/Wikidata:Database_download/zh

说明:包含所有维基数据实体列表

(2)freebase

Freebase 是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献。它整合了许多网上的资源,包括部分私人wiki站点中的内容。Freebase 致力于打造一个允许全球所有人(和机器)快捷访问的资源库,由美国软件公司Metaweb开发并于2007年3月公开运营。2010年7月16日被Google收购, 2014年12月16日,Google宣布将在六个月后关闭 Freebase ,并将全部数据迁移至Wikidata。

Freebase数据结构:

  • Topic:即实例或实体,每一条信息叫做Topic,比如:姚明等。
  • Type:类型或概念,每个Topic可以属于多个Type,比如:人、运动员等。
  • Domain:域,对类型的分组,便于schema管理,比如:人物。
  • Property:属性,每个Type可以设置多个属性,其值默认可以有多个,可通过设置unique为true限制只能有一个值。比如:出生日期、所在球队等。
    • 属性值类型可以是基本类型,比如:整型、文本等;也可以是另一个type,比如:所在球队、父母等,这种情况叫做CVT,compound value type 组合值类型,比如:所在球队就是一个CVT,它有自身结构化的属性,不仅仅只是一种简单的值。
    • MID:实体编号。不考虑实体合并和分裂时,一个实体和一个MID是一一对应的;当考虑实体合并和分裂时,多个MID可能指代一个实体,但是只有一个MID是master,其他的MID通过一个特殊的属性(<人.运动员.replaced_by>)指向这个MID。
    • KEY:可以通过key来唯一确定一个实体,一个实体可以有多个key,每个key都属于一个namespace,比如: "/en/yao_ming"的namespace为"/en"、"/wikipedia/zh-cn_title/姚明" 的namespace为"/wikipedia/zh-cn_title"。对于平台基础模型的实体(Domain、Type、Property),Freebase会从Key中选一个值,作为该实体的ID。

    • 属性约束:用于约束属性的取值范围,比如:类型约束(整型、文本、浮点型、datetime、CVT等)、条件约束(是否单值、是否去重、主属性、逆属性等)

 

链接:https://developers.google.com/freebase/

说明:类似维基百科,不同的时freebase是结构化数据

(3)dbpedia

DBpedia 是一个很特殊的语义网应用范例,它从维基百科(Wikipedia)的词条里撷取出结构化的资料,以强化维基百科的搜寻功能,并将其他资料集连结至维基百科。透过这样的语义化技术的介入,让维基百科的庞杂资讯有了许多创新而有趣的应用,例如手机版本、地图整合、多面向搜寻、关系查询、文件分类与标注等等。

链接:https://wiki.dbpedia.org/

说明:它从维基百科的词条里撷取出结构化的资料,并将其他资料集连结至维基百科。DBpedia 同时也是世界上最大的多领域知识本体之一

(4)wordnet

WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。

 它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。

 WordNet包含描述概念含义,一义多词,一词多义,类别归属,近义,反义等问题,访问以下网页,可使用wordnet的基本功能
http://wordnetweb.princeton.edu/perl/webwn

 

Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的,一个sense中的多个消除了多义性的词语叫做lemma。例如,“publish”是一个word,它可能有多个sense:

 

链接:https://wordnet.princeton.edu/

说明:它是一个覆盖范围宽广的英语词汇语义网

你可能感兴趣的:(开源知识图谱介绍)