一个文本情感识别与舆情分析的算法设计思路

原文来自:http://zfenng.diandian.com/post/2012-04-17/19659788

最近要和朱一烨同学一起改进一下实验室目前的舆情监测系统,经过一番论文的阅读后基本确立了一个情感/褒贬识别的思路:1. 情感词库的建立与权重的调整。2. 语法模型的构建与使用。

   一般方法貌似都是建立情感词库,记录下表达正面或负面情感的词汇。而在心理学上也认为单个词或词组对于表达人内心的情感有重要作用,姑且也算是这个方法的理论支撑。建立情感词库一般由一些情感种子词出发,一是通过Hownet等基于义原的词典进行语义距离识别,找出接近的词汇;二是可以通过大量语料库的训练,对词汇的同现现象进行统计,不断“学习”新的具有情感色彩的词汇。而情感词库常常还记录情感词的情感权值,即不同情感词表达情感的强烈程度。

   语法模型的构建方面,简单的构建方法可以只考虑情感词和程度副词,将句子或文章抽象为情感词与程度词的词串,从而进行权重的缩放来计算最终的情感倾向。而今天朱一烨同学找到一篇论文,论文使用了哈工大某技术工具HIT-IRLTP,能将句子分析为语法依赖树(话说哈工大的自然语言处理貌似很NB啊,同义词林也是他们建的),在语法依赖树这种复杂的语法结构中自然可以更精确地计算情感的缩放与传递,从而更准确地计算整个句子的情感倾向。

   但自己突发一个想法:以上这些方法都没有对文本进行片段的划分,也没有识别出每个片段的主题,只是能识别作者的褒贬,甚至都不知道在对什么事物或主题进行情感的表达。如果能够将文本根据论述的主题进行分段,并识别出每个段落的主题关键词,与需要舆情监测的产品或事件进行匹配,找到需要的段落,再用上述方法计算片段的情感倾向,不是能够过滤更多噪音,从而达到更精确的分析结果么。。。。

   然后找了一下文本主题识别的方法。好像大致分成3类:利用统计的方法实现边界计算与主题提取;基于词汇链的方法;基于词汇小世界模型的方法。初看了小世界模型,觉得还是比较复杂的,虽然小世界现象很简单,就是:任意两个对象之间,跨6个边就能两两通达的现象就是小世界现象。小世界模型具有高聚集度(连接到同一对象的其它任意两个对象也可能相互连接),且两个对象之间的路径平均长度相接近(假设为6),这个模型也广泛运用于其它网络,尤其是社交网络。

   但那篇论文对于如何在词汇形成的共现图的基础上进行聚类的方法并没有详细的论述,可能需要进一步的搜索……

   不知道这种思路能否有效或值得进行下去。在投入更多精力之前还是有必要进行论证。

PS 以文本为例子,本文中强烈体现了以小世界模型为依据,可以将本文分为2-3个片段。。。


你可能感兴趣的:(情感分析)