A Rule-Based Approach to Aspect Extraction from Product Reviews解析

文章基本信息

标题:A Rule-Based Approach to Aspect Extraction from Product Reviews
作者:Soujanya Poria,Erik Cambria,Lun-Wei Ku,Chen Gui,Alexander Gelbukh
机构:Dept of Computing Science & Maths University of Stirling//School of Computer Engineering Nanyang Technological University// Institute of Information Science Academia Sinica and so on
收录信息: In Proceedings of the second workshop on natural language processing for social media (SocialNLP). pages 28–37
相关代码:
数据集:
SemEval14
隐式aspect数据集
Stanford Dependency Parser

文章动机

1、aspect包括两种类型的属性,隐式aspect和显式aspect
2、获得句子的依存句法树,然后利用外部知识抽取aspect

方法

传统的方法就没有深度学习的框架示意图,直接介绍文章是怎么做的。
所用的词典:
1、隐式aspect词典:从数据集中定义了九个类别,作为隐式aspect的词典
2、观点词典:利用SenticNet 3作为词典(基准规则两条:主语动词的句子规则和没有主语动词的句子规则)
主要提出的三种规则:
1、主体名词规则
分别找到句子的触发词和行为:
1.1 如果行为词被副词或者形容词修饰,并出现在SenticNet 3,那该词为aspect
1.2 如果句子中没有任何的辅助动词,则可能包括四种情况:
一是如果动词被形容词或者副词修饰,或者位于状语从句中,都与另一个实体有关系,则被视为都是aspect
二是如果两者之间是直接宾语关系,并且是名词但是不在SenticNet 3中,则该名词被视为aspect
三是是如果两者之间是直接关系,并且是名词且在SenticNet 3中,则该名词被视为aspect
四是如果一个名词被应名词性短语修饰,如果修饰词是在词典中的名词,则修饰的名词为aspect。
1.3 连接词是系动词并连接动词和动词补语,则该动词为aspect
1.4 如果连接词连接了动词,并且连接的是名词,则该名词是aspect
1.5 如果连接词连接了两个动词,且存在任何依赖关系,且存在隐式词典中,则两动词为隐式aspect
2、没有主语和名词关系的句子
2.1 如果一个形容词或者副词位于不定式或者补语中,且存在隐式词典中,则为aspect
2.2如果两个词是介词关系,则两个词都是aspect
2.3 如果两个词有直接的关系,则为aspect
3、其他的规则
3.1 如果上述提取到的aspect与另一个用and连接词或者是辅助关系,则也是aspect
3.2 名词的复合修饰词,以用于修饰主体名词也是aspect

实验与结果

数据集详细统计:
A Rule-Based Approach to Aspect Extraction from Product Reviews解析_第1张图片
在通用的数据集的实验结果如下:
A Rule-Based Approach to Aspect Extraction from Product Reviews解析_第2张图片
另外为了说明文章的创新性,文章在不同的领域中都做了实验,不再赘述,主要看通用领域数据集的效果,确实得到了不错的效果。

总结与思考

文章提出了一种基于规则的aspect抽取的方法,一共总结出来了12种aspect抽取的规则,并举例说明规则的实用性和来源,都是基于英语的一些语法规则和依存句法树中国aspect的位置总结出来的实用性规则。
思考
就目前的深度学习而言,其实很多深度学习的框架最后的结果都不一定达到传统的规则的方式进行抽取。也有学者结合了深度学习和规则进行抽取,不得不承认很多传统的规则、机器学习在文本的分析任务上的效果要优于一些复杂的深度学习的框架。(大概也是有时候,正则的效果甚至比深度学习等方法好的原因吧。。。)

你可能感兴趣的:(论文解读,文本抽取任务,文本分析,自然语言处理)