COMP9414课业解析

COMP9414:情绪分析
假设你被一家大型航空公司聘为数据科学家。你的工作是分析Twitter提要,以确定客户对你的公司及其竞争对手的情绪。在这项作业中,你将获得一系列关于美国航空公司的推文。这些微博被人为地贴上了情感标签。情绪分为积极、消极或中性。重要提示:不要在互联网上发布这些推文,因为这违反了Twitter的服务条款。您需要使用各种特性和设置来评估各种有监督的机器学习方法,以确定哪些方法最适合该领域中的情感分类。任务包括两个部分:编写一系列用于情绪分析的模型,以及一份评估模型有效性的报告。编程部分包括开发用于tweet数据预处理的Python代码,以及使用NLP和机器学习工具箱进行方法实验。该报告包括使用各种指标评估和比较模型,并将机器学习模型与基线方法进行比较。您将使用NLTK工具箱进行基本语言预处理,scikit learn用于功能构建和评估机器学习模型。您将获得一个如何使用NLTK和scikit learn来完成此任务的示例(示例.py). 对于情绪分析基线,NLTK包括一个手工制作的(众包)情绪分析工具,VADER,1,由于其使用表情符号和社交媒体文本的其他特征来强化情绪,因此在该领域可能表现良好,然而,维德的准确性很难预测,因为:(i)众包总体上是高度不可靠的,(ii)这个数据集可能不包括太多的情绪和其他情绪标记的使用。数据和方法训练数据集是一个tsv(tab分隔值)文件,其中包含许多tweet,每行有一条tweet,tweet中的换行符被删除。tsv文件的每一行都有三个字段:实例号、tweet文本和情绪(正面、负面或中性)。测试数据集是一个与训练数据集格式相同的tsv文件,只是代码应该忽略情感字段。训练和测试数据集可以从提供的文件中提取数据集.tsv(见下文)。对于除VADER之外的所有模型,将tweet视为单词集合,其中单词是由至少两个字母、数字或符号#、@、$或%组成的字符串,并在删除所有其他字符后(两个字符是scikit learn中CountVectorizer的默认最小字长)。URL应该被视为一个空格,所以要对单词进行分隔。请注意,删除“垃圾邮件”字符可能会创建以前由这些字符分隔的较长单词。使用课堂上讨论的监督学习方法:决策树(DT)、伯努利朴素贝叶斯(BNB)和多项式朴素贝叶斯(MNB)。
情绪分析其实是一个相对不好量化的内容,每个人的情绪随着时间与地点的改变一直在进行这起伏变化。就像课业中提到的分析客户对自家公司及竞争对手的情绪变化,目的是什么呢,是寻求到客户对两者的态度以及选择趋向的区别,那么就需要进行大量的日常数据罗列与归类,在归类的同时寻找其中的大范围概率。这也是较难执行的部分
更多讨论可以+V:abby12468

你可能感兴趣的:(数据库,数据挖掘,cs)