关系抽取实现方案

基于规则集,rule-base:

XX 是 XX
XX 类似于 XX
XX 成立于 XX年 XX月
规则集合可以设置一些限制, 比如实体的类型。

  1. 优点:
    • 不需要训练数据。
    • 比较准确。
  2. 缺点:
    • low recall 低召回。
    • 人力成本。
    • 规则本身难设计,容易冲突

基于模型

分类:
- 定义好关系类型
- 定义好实体类型
- 训练数据准备:实体(类型)标记,实体间的关系(人工成本)
(XX,YY) relation

特征工程
构造两个实体的特征。

  1. bag of word featrue:
    • 词特征。1-gram,2-gram,3-gram。实体前后词。
    • 两个实体中间的词。
  2. pos feature: 词性特征
  3. 实体类别:实体标签
  4. 位置信息:
    • 比如 两个实体间包含了多个个字
    • 这句话在文中的位置(第几句)
  5. 依存句法分析/句法分析:
    • 两个实体间的最短路径(图算法)
    • 是否相互依赖(0,1)

特征相关性分析:协方差,皮尔森系数

模型训练方式

  1. 方案1:
    • K类别+无关系:共K+1的分类模型。
  2. 方案2:
    • 二分类模型+K分类模型。
      优点:二分类相对简单,训练数据不大,并且大部分实体是不存在关系的,提升效率。

你可能感兴趣的:(关系抽取实现方案)