silk官网介绍研读

框架
silk官网介绍研读_第1张图片
三种不同的服务

  1. Silk Single Machine用于在单台机器上生成RDF链接。应该相互链接的数据集可以驻留在同一台机器上,也可以通过SPARQL协议访问的远程机器。 Silk Single Machine提供多线程和缓存。此外,使用筛选功能针对性链接
  2. Silk MapReduce用于使用多台机器的集群生成数据集之间链接。 Silk MapReduce基于Hadoop,可以在Amazon Elastic MapReduce上运行。 Silk MapReduce可以处理非常大的数据集的实体的链接工作。
  3. Silk Server可以基于HTTP API从使用关联数据的Web应用程序中获取数据,匹配传入的RDF数据流中的实体。它可以与Linked Data爬虫一起使用,将来自Web的数据无重复缓存到本地数据数据库。

运行

  1. 指定需要连接的库(Silk-LSL配置文件);运行模型;根据配置文件配置的位置查看输出的链接文件
  2. 加载阶段(设定加载链接规则和需要连接的数据库);链接生成阶段
  3. 开启服务器,向服务器请求
    备注:silk提供可视化的工作台,可以可视化导入数据库,编辑规则和执行链接

扩展(最常见的扩展接口):增加数据转换规则(将数据转换成结构化数据);增加距离度量方式(度量实体的相似度)

提供开发API(未更新完)
API使用方式:使用Maven构建系统 ;通过使用silk.jar;通过下载源代码(推荐

可视化工作台提供的主要服务
链接发现:输入(链接规则,数据),输出(能够链接的实体)
评估任务:输入(链接规则,参考规则),输出(评估结果)
学习任务:输入(训练链接):输出(链接规则)

你可能感兴趣的:(知识融合)