文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。本文用简短篇幅概览文本情感分析领域的应用场景,具体流程和未来前景。
系统推荐、用户情感信息获取,为政府、企业提供舆情参考等领域
文本情感分析的技术方法还有改进的空间,在电子商务、心理治疗、舆情监控方面有较大市场和发展前景。
NLP 常用的分词算法可以分为三类:1)基于词典的分词,基于字典、词库匹配的分词方法;2)基于统计的分词,基于词频度统计的分词方法;3)基于规则的分词,基于知识理解的分词方法。
分词时,在面对一些专有名词的时候,分词效果不太理想,此时可以引入用户的自定义词典,人工划分出词语,字典一般为 txt 格式。
实际应用中,很多语气助词或者人称代词都不是需要关心的,在最终的结果中希望能够将其过滤掉,这时就需要建立停用词词典。在分词时,会把停用词字典中的词过滤掉,改善分词的效果。
识别文本中的人名、地名、时间等实体的名称,就叫作命名实体识别。
实体识别方法:
1)基于词典和规则的方法
2)基于机器学习的方法(将命名体识别看作一个序列标注问题)
常用的序列标注模型有:
HMM,CRF,MEMM,SVM
3)基于深度学习的方法
在神经网络逐渐发展成熟后提出的,词向量的出现,可以解决高维空间的数据稀疏问题,也可以加入更多的特征。
基于情感词典的情感分析法利用情感词典获取文档中情感词的情感值,再通过加权计算来确定文档的整体情感倾向。
情感词典的一般执行过程如图 1 所示。首先是将文本输入,通过对数据的预处理(包含去噪、去除无效字符等),接着进行分词操作,然后将情感词典中不同类型和程度的词语放入模型中进行训练,最后根据情感判断输出情感类型。
在 ML中,SVM(支持向量机)和 NB(朴素贝叶斯)对于文本数据的分类效果较好。
基于机器学习的情感分类法比起构建情感词典有一定的进步,但是还是需要人工对文本特征进行标记,人为的主观因素会影响的最后的结果。
深度学习其实是机器学习的一个子集,是多层神经网络在学习中的应用,覆盖了多个领域,涉及到较多知识,解决了以往的机器学习难以解决的大量问题。
基于深度学习的分词及情感词典构建:
分词、停用词、情感词典作为情感分析最基本的方法,如果能够在特定的领域构造一个专用的词典,假如这个词典的足够庞大,那么也可以得到较好的情感分析结果,出于这个想法,以深度学习为基础构造词典的想法就产生了。
单一神经网络:
情感分析大部分都是建立在 CNN、RNN、LSTM 等基本神经网络的基础上。
单一神经网络与注意力机制:
在单一神经网络的基础上,引入注意力机制,注意力模型最初被用于机器翻译,现在已成为神经网络结构的重要组成部分,并在自然语言处理领域有着大量的应用。注意力模型借鉴了人类的注意力机制,能从众多信息中选择出对当前任务目标更关键的信息,在情绪分析中可以更加关注代表情绪的词汇。
混合神经网络:
除了对单一神经网络和加入自注意力机制的研究外,有不少学者在考虑了不同神经网络的优点后将这些结合起来,取长补短,并用于情感分析。
预训练模型:
预训练模型是指用数据集已经训练好的模型,研究者希望花了很多时间训练的模型可以保留下来,在遇到类似情况的时候,可以调整参数后直接使用,就节约了再训练的时间,也能得到较好的结果。
预训练模型作为一种迁移学习的应用,它可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务,对低资源语言处理也非常有利,在几乎所有 NLP 任务中都取得了目前最佳的成果。
在语境中,目前还没有找到较好的方法处理反语;大部分的分类仍使用的二分类情感分析,对于多分类的情感分析还没有好的效果;多模态融合语料的情感分类也是近年的热点,不同模态中情感信息的权重如何分配,考虑外部语义信息对情感分类的准确性是否有帮助,也需要研究。
DOI:10. 11772/j.issn.1001-9081. 2021071262
DOI:10.3969/j.issn.1007-130X.2021.01.021
DOI:10.3778/j.issn.1002-8331.2101-0022
Aspect Based Sentiment Analysis总结(一)——任务和数据 - Jsgfery的文章 - 知乎
https://zhuanlan.zhihu.com/p/81513782