cs224u 基于远程监督的关系抽取(4)

cs224u 基于远程监督的关系抽取(4)

目录

    • 评估
    • 数据切分
    • 选择评估指标
    • 运行评估
    • 评估随机猜测策略

评估

在开始构建模型之前,建立一个测量模型性能的测试工具。

数据切分

根据数据构建模型时,最好将数据划分为多个部分,训练集用于训练模型,测试集用于评估模型。实际上,我们会划分为三部分:

  • 测试集(1%)。在开发期间,划出一小块数据用于训练或测试数据通常是有用的。当然,通过对小数据集进行评估而获得的结果几乎是没有意义的,但是由于评估运行速度非常快,在代码迭代开发周期中清除bug,这是个好方法。
  • 训练集(74%)。在开发期间和评估中使用大部分数据用于训练模型,可能需要更长的时间运行。
  • 验证集(25%)。将使用dev切分作为测试数据,用于开发期间形成的评估。
    这里切分数据集比其他NLP问题稍微复杂一些,因为我们同时拥有一个语料库和知识库。为了尽量减少训练数据到测试数据的信息泄漏,我们希望将语料库和知识库分开。为了最大化利用数据,我们尽可能紧密地对齐语料库分割和KB分割。在理想情况下,每个分割都有自己的实体,用于该分割的语料库将只包含提到这些实体的示例,用于该分割的知识库将只包含涉及这些实体的三元组。然而,这一理想情况在实践中并不能完全实现。为了尽可能接近,我们将按照这个计划:
  • 首先,我们将在一些KB三元组中切片作为主题出现的实体集。
  • 然后,我们将根据它们的主题实体切片这组KB三元组。
  • 最后

你可能感兴趣的:(cs224u 基于远程监督的关系抽取(4))