COMP9414课业解析

COMP9414：情绪分析
假设你被一家大型航空公司聘为数据科学家。你的工作是分析Twitter提要，以确定客户对你的公司及其竞争对手的情绪。在这项作业中，你将获得一系列关于美国航空公司的推文。这些微博被人为地贴上了情感标签。情绪分为积极、消极或中性。重要提示：不要在互联网上发布这些推文，因为这违反了Twitter的服务条款。您需要使用各种特性和设置来评估各种有监督的机器学习方法，以确定哪些方法最适合该领域中的情感分类。任务包括两个部分：编写一系列用于情绪分析的模型，以及一份评估模型有效性的报告。编程部分包括开发用于tweet数据预处理的Python代码，以及使用NLP和机器学习工具箱进行方法实验。该报告包括使用各种指标评估和比较模型，并将机器学习模型与基线方法进行比较。您将使用NLTK工具箱进行基本语言预处理，scikit learn用于功能构建和评估机器学习模型。您将获得一个如何使用NLTK和scikit learn来完成此任务的示例(示例.py). 对于情绪分析基线，NLTK包括一个手工制作的（众包）情绪分析工具，VADER，1，由于其使用表情符号和社交媒体文本的其他特征来强化情绪，因此在该领域可能表现良好，然而，维德的准确性很难预测，因为：（i）众包总体上是高度不可靠的，（ii）这个数据集可能不包括太多的情绪和其他情绪标记的使用。数据和方法训练数据集是一个tsv（tab分隔值）文件，其中包含许多tweet，每行有一条tweet，tweet中的换行符被删除。tsv文件的每一行都有三个字段：实例号、tweet文本和情绪（正面、负面或中性）。测试数据集是一个与训练数据集格式相同的tsv文件，只是代码应该忽略情感字段。训练和测试数据集可以从提供的文件中提取数据集.tsv（见下文）。对于除VADER之外的所有模型，将tweet视为单词集合，其中单词是由至少两个字母、数字或符号#、@、$或%组成的字符串，并在删除所有其他字符后（两个字符是scikit learn中CountVectorizer的默认最小字长）。URL应该被视为一个空格，所以要对单词进行分隔。请注意，删除“垃圾邮件”字符可能会创建以前由这些字符分隔的较长单词。使用课堂上讨论的监督学习方法：决策树（DT）、伯努利朴素贝叶斯（BNB）和多项式朴素贝叶斯（MNB）。
情绪分析其实是一个相对不好量化的内容，每个人的情绪随着时间与地点的改变一直在进行这起伏变化。就像课业中提到的分析客户对自家公司及竞争对手的情绪变化，目的是什么呢，是寻求到客户对两者的态度以及选择趋向的区别，那么就需要进行大量的日常数据罗列与归类，在归类的同时寻找其中的大范围概率。这也是较难执行的部分
更多讨论可以+V：abby12468

COMP9414课业解析

你可能感兴趣的:(数据库,数据挖掘,cs)