Bootstrapping算法的过程

参考文献:
程紫光. 面向领域知识库构建的实体识别及关系抽取技术[D]. 哈尔滨工业大学, 2014.

Bootstrapping过程形式化描述为:
对于给定的自然语言处理任务,选取特定的有指导的训练分类模型的方法。然后需要两个数据集,一般是少量的标注数据集L和为标注的数据集U。然后逐步通过未标注的数据集U来扩大标注的数据集。从而训练处最终的分类器实现具体的自然语言处理任务。

通过未标注数据集扩大标注数据集的过程如下:
1.使用已经标注的数据集L(可能是非常少量的数据集),应用选择的分类方法训练分类器h,h的作用主要是用于标注未标注数据集中的标注分类,通常可能是一些启发式规则等。
2.使用h对U进行标注分类目的是从U中获取到标注的数据。
3.在(2)中获取的标注数据中选择置信度较高的数据作为标注数据加入到标注数据集;
4.重复上述过程直到满足迭代结束条件。

Bootstrapping是一个能利用较少的标注语料获取到置信度较高的多量的标注语料的反复迭代的过程。Bootstrapping方法是通过两个主要的过程实现的,首先是提供一个少量语料就能够有效的进行分类的启发式规则或者时其他分类方法,其次是对分类器产生的新的标注语料进行评价的方法。通过评价来获得置信度较高的标注语料,这样通过迭代就可以获取到更大的标注数据集。迭代终止条件是给定一个迭代次数的阈值,或者时产生新的标注数据的数目过少等。

你可能感兴趣的:(信息抽取与问答系统)