Lifelong Learning CRF for Supervised Aspect Extraction解析

文章基本信息

标题:Lifelong Learning CRF for Supervised Aspect Extraction
作者:Lei Shu, Hu Xu, Bing Liu
机构:Department of Computer Science, University of Illinois at Chicago, USA
收录信息:Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 148–154
Vancouver, Canada, July 30 - August 4, 2017.
相关数据集:
dependency relations:From Stanford
相关代码链接:
CRF:Using BP to train and learn CRF

文章动机

1.CRF:利用从之前领域抽取的结果中自动挖掘的一些先验知识能显著提高CRF 的性能。
2. Lifelong mechine learning: 是一种持续的学习范式,它保留过去学到的知识,并利用它来帮助未来的学习和解决可能的适应性问题
因此结合两者的性能,作者提出了L-CRF的方法,能够在测试和应用的经验中提高抽取的性能。

方法

1、传统的条件随机场(CRF,见《统计学习方法》,李航 著):在给定的变量x条件下预测随机变量Y的马尔科夫随机场。
2、两种特征函数:
Label-Label (LL):
在这里插入图片描述
Label-Word (LW):在这里插入图片描述
同时沿用前人(Jakob and Gurevych)工作中的七种特征,其中G表示的广义的依赖特性。因此在Lable-Word特征函数下又设计出两种子类型:
Label-dimension (Ld)
在这里插入图片描述
Label-G
在这里插入图片描述
其中特征G能让L-CRF在测试时利用过去的知识进行序列预测,以取得更好的效果,这些特征以依赖模式为值。
3、依赖视图构造(dependency pattern)

  • 第一步:在已经拥有单词(W)和POS标记§特性的条件下,替换当前单词及其POS标记
  • 第二步:用知识标签形成更通用的依赖模式,然后在每一个依赖关系下替换上下文单词。

4、L-CRF算法
算法主要分为两个阶段:训练阶段(training phase)和终身抽取过程(lifelong extraction phase),其中训练阶段与普通的CRF训练过程类似,不在赘述。
终身抽取阶段算法伪代码如下:
Lifelong Learning CRF for Supervised Aspect Extraction解析_第1张图片
算法具体步骤为:

  • 第一步:在新的数据中生成特征F(第三行),然后应用训练的CRF模型在特征中生成一系列的Aspect;
  • 第二步:将获取得到的新的aspect加入上之前的aspect存储库中,从aspect的存储库中能获取到的一系列的aspect,其中lambda为频率阈值
  • 第三步:如果抽取到的Aspect已经在库中出现,则会产生更多的依赖视图
  • 第四步:如果抽取到的Aspect没有出现在在库中,则在下一次迭代中抽取其他的aspect。

实验结果及分析

数据集展示:包括了computer, Camera等多个领域的数据集,如下表所示。
Lifelong Learning CRF for Supervised Aspect Extraction解析_第2张图片
如table2 所示,Sent.为数据集包含的句子总数,Asp.为数据集中包含的总的aspect的数量以及不是aspect的词的数量。
在作者的实验设计中,同时在领域内和跨领域内进行了实验,结果展示:
Lifelong Learning CRF for Supervised Aspect Extraction解析_第3张图片
在跨领域中,明显能看的出L-CEF能显著超过其他的CRF模型,其中,最为显著的是CRF+R效果最差,足以说明仅仅只是将Aspect作为一个字典库的策略并没有效。
Lifelong Learning CRF for Supervised Aspect Extraction解析_第4张图片
在领域内(即将每一个领域的数据都放在训练和测试数据中)的效果虽然也比其他效果要好,但是没有明显的提升,就是因为在训练和测试样本中都出现了共有的aspect。

总结与思考

文章提出了一种终身学习的方法能让传统的CRF从之前领域的抽取任务中获取知识,从而在当前的任务中更好的利用获取的知识执行抽取任务。

1、终身学习的策略如果用在其他已的框架会不会比CRF要好很多?
2、与回忆的学习方法相比,其优势是不是只有在跨领域中会有显著的效果,以及如果在领域相差较大的实验中,是否还能取得不错的效果?

你可能感兴趣的:(论文解读,机器学习,人工智能)