2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)

海量数据挖掘分析与可视化实报告

课程名称:海量数据挖掘分析与可视化实战

实训学期  2021-2022学年第二学期      

实训时间:        第16周               

专    业    数据科学与大数据技术      

    级:     19大数据四班             

实验目的和与要求

  • 掌握数据预处理技术过程
  • 掌握数据综合性分析流程
  • 掌握数据挖掘分析流程
  • 掌握数据可视化技术方法

实验总体要求如下:

所有流程附上处理代码和处理完成截图

    

  • 数据预处理与导入

1、2019_nCoV_data.csv是2020年1月-3月世界新冠疫情的数据,要求对2019_nCoV_data.csv进行数据预处理做以下操作,要求

1.Sno编号列没有用,需要删除

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第1张图片

2.部分国家对应的地区为NAN,需要填充为空白字符串

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第2张图片

3.部分国家/地区,受感染人数为0,也被列在表格中,需要删去

4.查看受影响的国家/地区的数量,Country一列中将'Mainland China', 'Hong Kong' , 'Macau',  'Taiwan' 等统一修正为'China';另外需将'Korea, South'改为'South Korea'。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第3张图片

2.对于DXYArea.csv也需要进行数据预处理,要求做以下操作

1.由于数据国内省级行政区中香港、澳门、台湾的数据都是按省统计的,因此需要将这三个地区的province_confirmedCount、province_suspectedCount、province_curedCount、province_deadCount的数据赋值到city_confirmedCount、city_suspectedCount、city_curedCount、city_deadCount。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第4张图片

2.countryEnglishName一列中将 'HongKong' , 'Macao'等统一修正为'China' 

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第5张图片

3.将updateTime转换成date格式(输出为该数据的新列updateTime1,也就是只保留日期部分)。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第6张图片

4.因为大部分城市都没有加“市”字,所以要把直辖市的下属区的“区”字去掉;还有一些没有变化规律的城市名字,可以通过city_rename的字典进行修改。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第7张图片

3、观察处理后的2019_nCoV_data.csv发现,这个原始表格每天会把最新的数据更新在表格最后,而且并不是每天每个国家都会更新数据,所以需要筛选出每个国家的最新数据

(1)将Date转化为datetime格式,方便操作后面进行时间的比较。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第8张图片

  1. 按国家+城市字段分组,方便进行时间上的筛选。

4、通过以上处理,经查看后又发现一个问题,比如Australia,一开始是以国家为单位报数据,之后又分成小区域报数据,会导致计算重复,所以要删除这部分数据;但也不能直接删,因为不知道有多少国家的数据有这个问题。

(3)筛选出国家对应的城市字符串为空,且该国家下的城市(包括空字符串)数量大于一 的数据,删除这些数据。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第9张图片

5、对预处理后的DXYArea.csv数据也需要进行最新数据提取工作

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第10张图片

  • 二、数据分析与挖掘阶段

1.普通数据分析

1.根据2019_nCoV_data.csv预处理后的数据,查看2020年1月-3月最新数据中,除中国外世界各国总感染数据,找出前top10的国家

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第11张图片

2.根据处理后的DXYArea.csv查看全国各省确诊病例数量,统计相关信息。

 2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第12张图片

3.根据处理后的DXYArea.csv统计全国总体累计趋势。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第13张图片

4.根据处理后的DXYArea.csv,找出你关注的几座城市统计各城市总体累计趋势。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第14张图片

5.根据处理后的DXYArea.csv,自选我国的一个省,查看该省内各市的确诊比例。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第15张图片

6.根据处理后的DXYArea.csv,筛选除湖北省外其他各地区确诊病例数量,找出前top10的城市,统计相关信息。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第16张图片

7.筛选除湖北省外其他各省确诊病例数量,找出前top10的省份,统计相关信息。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第17张图片

2.数据挖掘阶段

8.请预测2020年6月份哪些国家的确诊人数最多、死亡人数最多,分别是多少。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第18张图片

 2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第19张图片

  • 三、疫情数据可视化大屏制作

(1)选取6个及以上分析指标数据进行疫情数据可视化大屏制作;

(2)利用Javaweb或Flask/Django框架等+Echarts实现以上可视化。

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第20张图片

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)_第21张图片

 

(实验中出现的问题及解决方法)本次实验数据预处理部分做着较为吃力,时间过长遗忘知识点太多,通过复习课本和在网上查阅资料等途径边学边用解决了数据处理难等问题,攻克了一个又一个的知识盲点,扫平了一个又一个的知识盲区,在可视化大屏制作中我也学到了很多有用的知识,巩固了课本知识点,锻炼了自己的动手能力,丰富了自己的学识,帮助自己在大数据的学习中更上一层楼。

你可能感兴趣的:(数据可视化,数据挖掘,大数据)