Datawhale 学术前沿趋势分析 Tesk1 论文数据统计

首先导入需要的包。



接下来读入100行数据,查看数据大致情况。



从图中可以看出,每行数据均有14个字段。
我们读入数据的id,分类和上传时间字段。大致统计一下数据。

我们统计一下,在本数据集中共出现了多少种独立的数据集。



从结果可以看出,共176个子集。
接下来我们提取出19年以后的论文。

在得到了2019年以后的所有论文以后,我们挑选出计算机领域内的所有文章。这里需要使用爬虫。

我们将2个表格合并后,可以用饼图看下每一个大类的文章占比情况。


最后计算一下计算机领域2019年和2020年各小类论文的分布情况。


你可能感兴趣的:(Datawhale 学术前沿趋势分析 Tesk1 论文数据统计)