【论文笔记】A comprehensive survey on sentiment analysis: Approaches, challenges and trends(下)

文章目录

  • 5.情感分析挑战
    • 5.1 Sarcasm detection(反讽检测)
    • 5.2 Negation handing(否定处理)
    • 5.3 Spam detection (垃圾检测)
    • 5.4 Anaphora and coreference resolution(回指和指代消解)(????)
    • 5.5 Word sense disambiguation(WSD)(词义选择)
    • 5.6 Low-resource languages(低资源语言)
    • 5.7 Sentiment analysis of code-mixed data
  • 6.总结与未来展望

5.情感分析挑战

5.1 Sarcasm detection(反讽检测)

讽刺,即通过说出或写出与某人意思相反的话,或者用意在使别人感到愚蠢或向他们表明他生气的方式或行动。在情感分析中,就例如写了一些积极词语或句子,但实际上表达的是消极或者是相反的的意思,正如大家所见,这一内容在现在经常被使用。因此对于讽刺检测的研究日益增加,以克服通过自动识别给定文本中的分词表情来获取deceitful sentiments 问。sarcasm的复杂性和模糊性是一项极具挑战性的NLP任务。

该研究有通过带有softmax注意力层的双向LSTM和卷积神经网络的混合来解决。softmax注意力层用于从Glove词表示中学习英语特征的语义上下文向量并转发到CNN。CNN模型中还通过HindiSenti(Hindi SentimentNet)特征向量和机遇标点符号的辅助特征相结合,准确率高达92.71%

D. Jain, A. Kumar, G. Garg, Sarcasm detection in mash-up language using soft-attention based bi-directional LSTM and feature-rich CNN, Appl. Soft Comput. 91 (2020) 1–11, https://doi.org/10.1016/j.asoc.2020.106198.

5.2 Negation handing(否定处理)

对于情感分析来说,处理否定词如not,None,nor等非常重要,因为它们可以逆转给定文本的极性。但是在一些方法中,否定词被删除是因为他们被包含在Stop-word之中,或者因为他们在词库中的情感值是中性的,不会影响最终的极性而被忽略。

然而,通过反转极性来处理这一任务并不容易,因为否定词可以在句子中找到,而不会影响文本的情感。Lazib等人[ 278 ]提出了一种基于句法路径的混合神经网络用于否定辖域检测。该方法结合了双向LSTM和CNN,其中CNN模型用于在选区和依存句法分析树中的最短句法路径内捕获标记和线索之间的相关句法特征,而Bi - LSTM则在前向和后向两个方向上学习沿句子的上下文表示。他们的模型达到了90.82 %的f值。

D. Jain, A. Kumar, G. Garg, Sarcasm detection in mash-up language using soft-attention based bi-directional LSTM and feature-rich CNN, Appl. Soft Comput. 91 (2020) 1–11, https://doi.org/10.1016/j.asoc.2020.106198.

5.3 Spam detection (垃圾检测)

垃圾邮件检测在情感分析领域占有重要地位。由于在线评论影响消费者的购买决策,垃圾评论和虚假评论会损害品牌的声誉,人为地操纵用户对产品、服务、公司或其他实体的感知[ 279 ]。开发一个垃圾邮件检测系统,能够在众多评论中识别出虚假评论是一项非常具有挑战性的任务,因为评论之间没有明显的区别。

5.4 Anaphora and coreference resolution(回指和指代消解)(????)

回指是语言术语之间的共指关系[ 281 ]。在情感分析中,特别是aspect-based的情感分析中,识别一个代词在句子中指的是什么是有用的,因为它有助于提取给定实体的所有aspects。遗憾的是,在预处理步骤中,代词通常被忽略或删除。Sukthanker等[ 282 ]对指代消解领域以及与之密切相关的回指消解领域进行了详尽的综述。Deborah等人[ 283 ]提出了一种增强的指代消解算法。该算法通过发现复合名词并解析每个词的词性来提供句间回指消解。与传统的现有回指消解方法相比,该算法取得了更好的性能。

5.5 Word sense disambiguation(WSD)(词义选择)

中文中对于这个问题其实就是一词多义,一个词可以有不同的意义,根据语境和使用的领域,每个情况下这个词的意义都可能不同。词义消歧旨在确定一个词在句子中使用了哪种词义。例如,"弯曲"一词如果与线连用,指的是积极的语境,如果与手机连用,则可能指的是消极的意义。因此,从句子中识别词义具有很大的挑战性。

Wang等人提出了一种基于知识的方法来解决这个具有挑战性的任务。

Y. Wang, M. Wang, H. Fujita, Word sense disambiguation: A comprehensive knowledge exploitation framework, Knowledge-Based Syst. 190 (2020) 1–13, https://doi.org/10.1016/j.knosys.2019.105030.

该方法分别利用潜在语义分析( LSA )和PageRank对给定句子后隐藏语义空间和语义路径的WSD问题进行建模。实验结果表明了该方法的有效性,取得了良好的效果。类似地,词极性消歧( WPD )是另一个具有挑战性的问题。WPD旨在解决特定语境下情感歧义词的极性问题。Xia等[ 285 ]利用贝叶斯模型和观点级特征解决了这个问题。他们通过定义观点内和观点间特征来探索水平情境。使用贝叶斯模型使观点级特征更有效,并以概率方式解决极性问题。

Y. Xia, E. Cambria, A. Hussain, H. Zhao, Word polarity disambiguation using Bayesian model and opinion-level features, Cognit.

5.6 Low-resource languages(低资源语言)

在情感分析领域,大部分的研究工作都集中在英语,或者其他拥有可接受的语言资源(例如情感词典和标注文本语料库)的语言。对于监督学习来说这是SA应用最多的方法,但是他及其依赖语言资源,对于不常用和不常见的语言来说,获取成本高,因此语言资源少,这类语言叫做低资源语言。

解决这类问题可以采用无监督学习,或者是半监督学习迁移学习进行训练。

5.7 Sentiment analysis of code-mixed data

Code-mixing(CM)语码混合是指在一个句子中使用来自多个语言的词汇和句法。在多语言社会中相当普遍,给NLP带来了巨大挑战。对于组合语义来说使用基于规则和机器学习的技术进行情感分析非常重要,同时由于mixed是由人决定的,因此有非确定指性混合规则(non-determined mixing rules),这是最主要的困难之一。

相关研究人员表明,switching points(切换点,指的是人切换到另一种语言)是CM语言模型的本质问题,也是传统模型性能不佳的原因。

6.总结与未来展望

有监督的机器学习算法由于其简单性和高准确性,通常是该领域使用最多的技术。使用朴素贝叶斯和支持向量机算法进行分类通常被认为是比较新提出方法的基线方法。

然而,其他技术(例如,强化学习)为解决领域中的一些问题和挑战提供了有力的解决方案,例如没有标记数据或其他相关的NLP任务。随后提出的挑战表明情感分析仍然是一个开放的研究领域。英语是该领域研究最多的语言,但最近其他自然语言获得了更多的兴趣。这些语言的资源仍然匮乏。因此,通过构建有用的资源(如构建数据集和生成词库)来处理英语以外的其他自然语言可能是一个有趣的未来工作。

你可能感兴趣的:(论文笔记,论文阅读,深度学习,人工智能)