基于情感词典的文本情感分析

一、什么是情感分析

文本情感分析:是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为:

  • 基于新闻评论的情感分析,用于舆情监控
  • 基于股票评论的情感分析,把握股票走势
  • 基于产品评论的情感分析,帮助商家了解产品在用户心中的口碑。

目前,情感分析主要方法如下:

  • 基于情感词典的情感分析
  • 基于机器学习的情感分析
  • 基于深度学习的情感分析

本文主要讲解基于情感词典的情感分析方法。

二、数据准备

1、情感词典

每个词语权值设置为1,可以自行设置。

  • pos_dict
  • neg_dict

2、程度副词词典

不同程度的副词对应不同的权重

  • most - 2
  • very - 1.5
  • more - 1.25
  • ish - 0.5
  • insufficient - 0.25
  • inversed - 负 1

3、停用词词典和自定义词典

自定义词典用于提高分词准确度

三、模型分析

1、文本预处理

  • 文本分句
  • 文本分词
  • 去除停用词
    ...

2、计算句子得分

循环遍历句子中的单词,如果是 neg,则 neg_score 加 1,判断 neg_word 前边是否存在副词,如果存在则剩以相应权重。最终 pos_socre-neg_score 的值为最终得分,大于 0 则为 pos,否则为 neg。

这个游戏不是太好玩。
分词结果[这个/游戏/不是/太好玩 ]
依次遍历每个单词,当遍历到“太好玩”(+1)在 pos 词典出现,则往前遍历是否出现程度副词,“不是(-1)”出现,则最终得分为 -1。

你可能感兴趣的:(基于情感词典的文本情感分析)