python毕业设计开题报告-基于python爬虫的影评情感分析研究开题报告

论文(设计)题目 基于python爬虫的影评情感分析研究开题报告

选题的背景、意义及研究现状:

研究现状:

文本情感分析又称倾向性分析、情感挖掘,主观分析或评论挖掘,是对带有情感色彩的评论文本内容进行分析、处理、归纳和推理的过程,从而发现评论者对研究对象的态度和意见。评论文本信息表达了用户的各种感情色彩与情感倾向,比如喜、怒、哀、乐、赞成、反对、表扬、批评等。情感分析可应用于市场预测、舆情监测、竞争情报获取等多种研究。

情感分析的方法包括基于情感词典的方法,有监督的机器学习方法和无监督的机器学习方法。基于情感词典的情感分析方法就是通过构建一个包含各类情绪的情感词典,制定评价规则,对文本进行拆句、分析及匹配词典,通过分析文本中的正向情感词和负向情感词数目来计算情感值,从而得到每部电影正向、负向和中立情绪的比例,最后以情感值来作为文本评论数据情感倾向判断的依据。机器学习的方法需要的是大量人工标注的语料作为训练集,运用机器学习或算法等方式训练模型,得出模型后再用来分类判断新本文的情感倾向。

研究内容、研究方法与思路:

研究内容:

利用Python爬虫来爬取豆瓣的影评,经过数据分词和词性标注,其中的词性标注要是弱标注。以HowNet和NTDSP为基础,PMI为技术来制作电影领域的情感词典,根据情感词典来找到情感词并标注它的位置,再向前查找否定词和程度副词,在计算情感值。通过支持向量机SVM来进行分类,以Accuracy来评价最终的分类效果。

【本文来自doc163.com QQ:869918441】

研究方法:

观察法:研究者根据一定的研究目的,研究提纲和观察表,用自己的感官和辅助工具去观察被研究对象,从而获得资料。

你可能感兴趣的:(python毕业设计开题报告-基于python爬虫的影评情感分析研究开题报告)