中文的 http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html
情感词典
1.知网的情感词典
- http://www.keenage.com/html/c_bulletin_2007.htm
由知网发布的词典,包括中文情感词典和英文情感词典
(以下需要论坛积分)
2.台湾大学的情感极性词典
- http://www.datatang.com/data/11837
包括2810个正极性词语和8276个负极性词语。准确度很高
情感分析语料
3.酒店评论语料
- http://www.datatang.com/data/11936
谭松波整理的一个较大规模的酒店评论语料。
语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。
4.豆瓣网影评情感测试语料
- http://www.datatang.com/data/13539
来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5stars评分在网页中有标注。语料至527页。每页20条短评。共计11323条评论
5.酒店、电脑与书籍的评论语料
- http://www.datatang.com/data/11937
数据量不太大,也有一些重复的数据
6.评论网页数据集
- http://www.datatang.com/data/12044
数据量不小,包括的电影和评论都不少
--------------------------------------------------------------------------------------
文本情感分析综述∗赵妍妍+, 秦兵, 刘挺
4.2 情感分析的资源建设
4.2.1 情感分析的语料
1.(可下载)康奈尔大学(Cornell)提供的影评数据集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由电影评论组成,其中持肯定和否定态度的各1,000篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.
2.伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下
载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句
子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观
识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.
3. (可下载)Janyce Wiebe等人所开发的MPQA(Multiple-PerspectiveQA)库:包含535篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA语料适合于新闻评论领域任务的研究.
4. 麻省理工学院(MIT)的Barzilay等人构建的多角度餐馆评论语料:共4,488篇,每篇语料分别按照五个角
度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供
了研究平台.
5. 国内的中科院计算所的谭松波博士提供的较大规模的中文酒店评论语料:约有10,000 篇,并标注了褒贬
类别,可以为中文的篇章级的情感分类提供一定的平台.
4.2.2情感分析的词典资源
情感分析发展到现在,有不少前人总结出来的情感资源,大多数表现为评价词词典资源.
1. GI(GeneralInquirer)评价词词典(英文,http://www.wjh.harvard.edu/~inquirer/).该词典收集了1,914个褒义词和2,293 个贬义词,并为每个词语按照极性,强度,词性等打上不同的标签,便于情感分析任务中的灵活应用.
2. NTU 评价词词典(繁体中文).该词典由台湾大学收集,含有2,812 个褒义词与8,276个贬义词[76].
3.(可下载) 主观词词典(英文,http://www.cs.pitt.edu/mpqa/).该词典的主观词语来自OpinionFinder系统,该词典含有8,221 个主观词,并为每个词语标注了词性,词性还原以及情感极性.
4. (可下载)HowNet评价词词典(简体中文、英文,http://www.keenage.com/html/e_index.html).该词典包含9,193个中文评价词语/短语, 9,142个英文评价词语/短语,并被分为褒贬两类.其中,该词典提供了评价短语,为情感分析提供了更丰富的情感资源.