aspect级别的情感分析research line

1. RNN+CRF:

过去的方法主要分为两类:

第一种:从一个seed集合,使用句法规则和aspect及opinion之间的关联来积累aspect terms和opinion terms。但是这种方法很依赖与手动定义的规则,并且严格遵循特定的词性规则,例如opinion词是形容词。

第二种:sequence labeling classifier,例如CRFs和HMMs,使用feature engineering,词典和有标注的数据集。This approach requires extensive efforts for designinghand-crafted features, and only combines features linearly when a CRF/HMM isapplied

使用深度学习进行情感分析的方法分为两类:一类是句子级别的情感预测,一类是phrase/word-level情感预测。

2. Sentiment Analysis 分为以下三步

1)Tokenization符号化的特征 2)Feature Extraction词语或句子级别的特征  3)Classification using different classifiers,分类器例如:Naïve Bayes,MaxEnt,SVM

例文:Sentiment Classification using Machine Learning Techniqueshttp://www.ijsr.net/archive/v5i4/NOV162724.pdf

1)Tokenization符号化的信息包括如下类别,表情或者电话号码,日期等等

aspect级别的情感分析research line_第1张图片

2)特征提取

问题1:只使用形容词还是所有词都使用?所有词更好

I didn’t like this movie---I really like this movie

问题2:否定词如何处理?

给否定词后和下一个标点符号之间的词前面加NOT_

didn’t like this movie, but I

---》   didn’t NOT_likeNOT_this NOT_movie, but I

3. Aspect sentiment classification

主要有两种方法:有监督学习和基于词典(lexicon-based)的方法

1)有监督学习:

已知aspect,关键问题就是如何确定每个sentiment的scope。主流方法是使用依存关系,根据依存关系给特征加权重。

2)基于词典的方法

sentiment shifters:有一些词会更改情感的极性,例如not, never, none, nobody, nowhere, neither。

but-clauses:“Car-x is great, but Car-y is better.”

除了以上方法,有很多情感是隐性表示的,难提取的,也可以使用Basic rules ofopinions

Liu Bing:BNF form

aspect级别的情感分析research line_第2张图片

P和PO代表两种positive sentiment expressions。P代表atomic positive expression,一个词或一个短语。PO代表更复杂的表达。sentiment_shifter N和sentiment_shifter NE代表negation

4. Aspect Extraction  主要有四种方法:

1)频繁出现的名词和名词短语

改进:去除可能不是aspect的名词短语

对每个名词短语计算PMI(pointwise

mutual information) score,该短语与其相关的短语之间的,meronymy discriminators(关系鉴别器)

例如camera类中可能会包括”of camera”, “camera has”, “camera comes with”等,公式中a是candidate aspect,d是discriminator。如果candidate aspect a的PMI值很低,那么可能是因为a和d同时出现的频率很低。

2)通过分析opinion和target的关系,如果opinion已知,sentiment words往往比较容易知道。依存关系

3)有监督的学习方法

sequential learning(or sequential labeling),HMM或CRF

另一种:

首先使用依存树找到aspect和opinion word对,然后使用树结构的分类方法来学习,aspect从得分最高的pair得到。

4)主题模型

两种基本的方法:pLSA和LDA

Topic modeling is an unsupervised learning method thatassumes each document consists of a mixture of topics and each topic is aprobability distribution over words

Theoutput of topic modeling is a set of word clusters. Each cluster forms a topicand is a probability distribution over words in the document collection


Joint sentiment/topic model forsentiment analysis

http://pdfs.semanticscholar.org/9902/8b156a3a996914203bca7308ac339e708751.pdf

Sentiment analysis with global topicsand local dependency

http://www.cs.huji.ac.il/~jeff/aaai10/02/AAAI10-242.pdf

5. 深度学习的aspect level情感分析

1)分类问题:

Given a sentence and a target mention, the task calls forinferring the sentiment polarity (e.g. positive, negative, neutral) of thesentence towards the target.

Effective LSTMs for Target-dependentsentiment classification

链接:https://arxiv.org/pdf/1512.01100.pdf

aspect级别的情感分析research line_第3张图片


Aspectlevel sentiment classification with deep memory network

论文链接:http://wing.comp.nus.edu.sg/~antho/D/D16/D16-1021.pdf

Given a sentence s = {w1, w2, ..., wi ,

...wn} consisting of n words and an aspect word wi occurring in sentence s文中只考虑了单个aspect的情况

2)序列标注问题:标注出sentiment和aspect

你可能感兴趣的:(aspect级别的情感分析research line)