数据可视化之饼状图(原理+Python代码)

数据来源于Kaggle数据集,链接:https://www.kaggle.com/Cornell-University/arxiv

目录

    • 00、前言
    • 一、原理介绍
    • 二、代码实现
    • 三、结果解释

00、前言

这是Datawhale第二十一期组队学习的第一次正式打卡,因此简单整理了一下CSDN博客的撰写方法,可供参考:新手如何撰写CSDN博客?CSDN博客撰写入门级方法

一、原理介绍

饼状图是数据可视化中的一种基本图形,常用于展示某一分类变量中各个类别所占的比例。根据饼状图中各个扇形所占的角度大小,可以比较得出数量多的类别和数量少的类别。此外,分类变量可视化的图形还有树形图、玫瑰图、雷达图等。

这里通过绘制扇形图,来比较计算机各个方向发表论文数量的差异。

二、代码实现

#加载常用模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore") #过滤掉警告的意思
from pyforest import *
#读入数据
data=pd.read_csv("F:/data/paper_group.csv")
#查看数据前五行
data.head()
group_name id
0 Physics 38379
1 Mathematics 24495
2 Computer Science 18087
3 Statistics 1802
4 Electrical Engineering and Systems Science 1371
#设置画布大小
fig = plt.figure(figsize=(15,12))
explode = (0, 0, 0, 0.2, 0.3, 0.3, 0.2, 0.1) 

#此处以id作为各类别的计数,group_name是类别的名称
plt.pie(data["id"],  labels=data["group_name"], autopct='%1.2f%%', startangle=160, explode=explode)
plt.tight_layout()
plt.show()

数据可视化之饼状图(原理+Python代码)_第1张图片

三、结果解释

从扇形图可以看出,物理方向的论文数量最多,达到44.86%,其次是数学方向的论文,占比28.63%。由此可见,基础学科的论文产出数量是相对较高的。

相关阅读

  • 数据可视化之小提琴图(原理+Python代码)
  • 数据可视化专栏

你可能感兴趣的:(数据可视化,可视化,python,机器学习,数据可视化,数据分析)