开放知识库调研

开放知识库调研

目前调研到可用的开放知识库包括:Knowledge Graph, Freebase, Wikidata。下文描述能够获取的数据以及对应最方便的接口方式。

1 Knowledge Graph

1.1 关键字搜索接口

接口方式: HTTP GET

数据格式: json

数据内容:

  • mid: Freebase 实体id,能通过此id访问实体在 Freebase 中的信息。
  • name: 实体名称。
  • type: 实体类型。
  • description: 实体的一句话简短描述。
  • image: 描述实体的一幅图片,如人物的照片,机构的徽章等。
  • detailed description: 比较详细的介绍文章,包含摘要以及文章的url,文章大部分来自wikipedia。

2 Freebase

提供关键字搜素接口,并提供html格式的实体信息页面。

2.1 关键字搜索

接口方式: HTTP GET

数据格式: json

数据内容:

  • name: 实体名称
  • mid: Freebase 实体id

可以参考Freebase搜索Beijing。

2.2 实体信息页面

接口方式: HTTP GET

数据格式: html

实体信息页面以html格式提供实体的详细信息,还包含很多的相关实体以及实体关系。但是由于信息结构化程度低,并且不同种类实体提供的信息也不一样,因此分析困难。

比较一般性的信息包含:

  • name: 实体名称。
  • description: 实体描述,一般来自wikipedia,附有资源的url。
  • alias: 实体的其他别名。
  • image: 描述实体的图片。
  • topic: 与实体相关的一些文章。

其他具体的内容依据相应实体的类别而异。例如机构类实体可能包含:

  • 官方网站
  • 地理位置
  • 电话号码
  • 员工信息

名人类实体可能包含:

  • 出生时间
  • 死亡时间
  • 国籍
  • 家庭关系

数据内容可以参考Freebase Beijing 信息页。

3 Wikidata

提供关键字搜索接口,并能依据id进行实体详细信息查询。

3.1 关键字搜索

接口方式: HTTP GET

数据格式: html

数据内容: 只包含相应实体在 Wikidata 中的id。

3.2 实体详细信息查询

依据实体的 Wikidata id查询其详细信息。

接口方式: HTTP GET

数据格式: 可以指定html或者json

数据内容: 以实体以及关系描述的实体详细信息。html格式为人类可读的页面,json格式是类似于三元组描述的实体关系数据。

html格式的数据可以参考Wikidata html: Beijing,json格式的数据可以参考Wikidata json: Beijing。

你可能感兴趣的:(数据,搜索,库,开放)