Day 4 一部雅虎的舆情挖掘与情感分析专著[2]

与什么相关?一个舆论/观点搜索引擎的结构分析

挑战非常巨大,所以我们举个例子来分析一下。
主要有以下挑战:

1.如果应用要集成到广泛应用的搜索引擎中,我们首先要知道用户是不是要找主观评价材料。我们可以通过用户使用的搜索关键词,如“评论”、“观点”,或者选中框来简化这个问题。但请求分类本身是个很大的挑战,这个问题还是2005 KDD Cup challenge的主题【不知道是什么鬼】。

2.除了确定请求是不是与评论相关,另外还有新的挑战就是确定文字中的哪些部分是包含评论信息的。如果是在典型的评论性来源中,这个工作自然很简单,比如像亚马逊或者大众点评网上的评论。但另一方面,博客中也含有大量的主观内容,因此也是一个重要的信息来源(并且更多的是像政治、人物,等等与产品无关的评论),但博客在内容、风格、呈现方式和语法水平上参差不齐(因此是个亟待解决的问题)。【不过个人觉得这个方面更大的问题是如何确定哪些是有观点的内容……】

3.检索到目标文字之后,我们还要面临的问题就是怎么检测这段文字表述的整体情感,和/或它对某个事物或话题在特定方面提出的详细观点。 像豆瓣这样的网站自然有评分系统和标签来确定,但另一方面,还有大量的自由文字,这提出了新的挑战:比如,如果新闻中引用了一句话,我们必须正确指明这些引用的话中的观点是针对哪个实体。

4.最后,系统要将搜集到的信息用一种合理的总结方式呈现出来。这个过程可能包含以下行为:
a.不同评价方式的“投票”需统一起来(如有的是打分,有的是语言评价)
b.选择性强调某些观点
c.呈现意见分歧点与统一点
d.对意见者进行归类
e.计算不同人群和意见者的权威性和可信度

应当指出的是,最后的总结最好是可视化的。

我们的研究目标与方法

上述3,4,5的内容是非常活跃的研究领域,但是由于篇幅限制我们不可能事无巨细覆盖所有内容。
我们主要研究信息获取应用,而不是纯语言性质的研究。
由于我们的研究目标,本文中主要关于情感分析应用的方法与观点分类问题技术。最后我们还走到技术问题之外,讨论隐私什么什么的经济影响……

总之我前两天看到的分词等等相关技术和这个应用文献没什么关系……,那个是基础技术算法,这个是应用分析……

That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.4.2015

你可能感兴趣的:(Day 4 一部雅虎的舆情挖掘与情感分析专著[2])