知识图谱 (2)半结构化数据的知识抽取

1. 半结构化数据定义

类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。

  • 对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。

  • 包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。
    使用它提取信息流程为:
    知识图谱 (2)半结构化数据的知识抽取_第1张图片
    2.百科类知识抽取

知识图谱 (2)半结构化数据的知识抽取_第2张图片

3. Web网页数据抽取:包装器生成

现在我们的目标网站是部分结构化的,如:

知识图谱 (2)半结构化数据的知识抽取_第3张图片

  • 包装器归纳
    借助基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。
    在这里插入图片描述

  • 自动抽取
    对于监督学习我们知道标注数据是它的短板,因此我们想到自动抽取的方法。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。
    知识图谱 (2)半结构化数据的知识抽取_第4张图片

你可能感兴趣的:(知识图谱)