在2021年5月份,正当全球在接种新冠疫苗之时,印度却再次爆发了前所未有的疫情。在我们处于安稳生活的同时我们也要深刻的了解其他国家,人民可能处于水深火热之中,正好最近学习基于python的数据分析便利用己学习的知识结合和和鲸社区的“全球新冠肽炎C0VID—19数据”做了一个简单的确诊可视化分析。
1、数据的准备
当我们拿到一个数据集时应首先进行数据准备:
如:(1)建立开发环境(2) 读取数据(3)查看数据
(1)建立开发环境
(2)读取数据
根据你要读取文件的格式采取不同的读取方法。如我的文件格式为. csv于是我便采用的read_csv函数对文件进行提取。若为其他的格式可以使用其对应的函数进行处理具体的函数可以参考如下图所示:
(3)查看数据
当我们读取完文件数据可以利用相关函数对数据的基本信息进行查看如下图所示
利用head() 函数可以只对文件数据读取文件的前五行的文件信息,当然你也可以使用一些转换使数据让你自己觉得很方便进行分析如你可以利用head(). T对数据的行和列进行互换
我们还可以利用函数查看已知数据的类型信息以便我们对数据的接下来的分析
其中shape函数可以查看数据的行和列的数目,dtypes函数可以查看每一列数据的基本类型而info函数则是统计各种类型的出现的次数
以上的函数均为对数据的基本类型进行查看,当然我们也可以对数据本身进行分析我们可以利用descride函数对每行数据值出现的次数,数据的平均值,平均方差,最小值等数据信息进行查看如图所示
2、中国疫情确诊人数可视化分析
作为中国人,我们每个人在对自己的国家自豪的同时也应时刻关注国家的动向对此将中国的疫情单独拿出进行可视化的分析
首先要利用切片获取中国区域的数据
然先利用sum对中囯区域的每天的数据求和汇总和对中国区域数据赋值并利用head函数查看部分数据
得到数据后我们可以利用plot函数绘制相关图型使数据更加具体,如可以利用线型图展示疫情确诊人数总数
也可以利用diff函数计算每日确诊人数和绘制相关线型图
同样也可以将每周的确诊人数求和统计,并利用柱状图展现
以上的分析都是利用利用pandas的plot绘图,你也可以利用热图的方式以下我将利用pandas和seaborn的热图对中国的确诊人数的分析
首先利用pandas的热图分析,取数据的一部分这里采用的为近30天的数据,通过对中囯区域数据的筛选,可以获取相应的数据
利用Pandas绘制热图,其中的axis=None表示按照单元格计算颜色整体评比其也可以为0和1分别为对纵向和横向评比
同样也可以利用seaborn进行热图绘画,但需要进行下载可直接在命令行利用pip install seaborn进行下载。
其中cmap表示为色彩表,linewidths表示为线宽,annot表示是否显示数据
3、全球当前确诊人数的可视化数据分析
了解了中国的数据我们同时也可以观察全球当前的确诊数据,同样首先要利用函数获取相关信息
其中unique函数可以获取唯一值联和len函数可以获取一共的国家,利用切片可获取数据的后两列(isna:判断空值的方法) ,利用两者的差获当前的数据并利用sort_values对数据排序。
通过排序的数据可以获取前十,并绘制柱状图。
4、总结
以上为我对全球疫情确诊人数数据的可视化分析,其实与其说这次分析是一个小实例,不如说这是我对于数据分析的学习总结,将最近学习的视频和文件中的知识通过实践分析进行理解。当然由于我只是新手运用的方法比较简单方法也是比较通俗很多地方都是通过视频和文档学习而来,可能会存在一些错误请大家可以谅解。