2023第二届全国大学生数据分析大赛B题思路

本题采集了某短视频平台的大量文本数据,请根据提供的数据进行数据的清洗、分析与挖掘,并回答下列问题。

1. 分别获取违规(sensitiveness.csv)和非违规(insensitiveness.csv)数据, 并进行数据合并得到整体数据集。(10 分)

两张表直接拼起来就行了,保持两列不变(0,label)


2. 绘制统计图分析所有文本内容的词长;分析违规信息数量和非违规信息数量的占比。(20 分)

统计文本长度:对每一条文本统计其长度,然后对整体长度分布、违规信息及非违规信息文本长度分布统计做图就可以了(频数分布图或者直方图);

违规信息数量和非违规信息数量的占比:基本就是字面意思了,看一下违规和非违规的样本分布比例

3. 对数据中的评价内容进行分析,制作词云图,给出违规信息中出现次数最多的 10 个词。(20 分)

正题开始了,中文文本需要做分词、剔除停用词处理,可以去看一下jieba库,官网有详细使用文档、比较简单。用jieba统计完词频后,画词云图很简单(忘了jieba内部有没有),用可视化工具画图就行了、基本都有词云图功能。这里最好把违规信息、非违规信息分别统计,也可以整体看一下。

违规信息中出现次数最多的 10 个词就是频次最高的10个词

......

三、免费获取完整思路


        关注威信公众号 Python风控模型与数据分析,回复 23年数据分析大赛B题思路 免费获取完整思路;编写不易,辛苦多多关注

你可能感兴趣的:(数据分析,数据挖掘)