spiritLHL

用Python进行新型冠状病毒（COVID-19/2019-nCoV）疫情分析

新型冠状病毒（COVID-19/2019-nCoV）疫情分析

祈LHL

重要说明

分析文档：完成度：代码质量 3:5:2

其中分析文档是指你数据分析的过程中，对各问题分析的思路、对结果的解释、说明(要求言简意赅，不要为写而写)

ps:你自己写的代码胜过一切的代笔，无关美丑，只问今日比昨日更长进！加油！

由于数据过多，查看数据尽量使用head()或tail()，以免程序长时间无响应

=======================

本项目数据来源于丁香园。本项目主要目的是通过对疫情历史数据的分析研究，以更好的了解疫情与疫情的发展态势，为抗击疫情之决策提供数据支持。

关于本章使用的数据集，欢迎点击——>我的B站视频在评论区获取。

一. 提出问题

从全国范围，你所在省市，国外疫情等三个方面主要研究以下几个问题：

（一）全国累计确诊/疑似/治愈/死亡情况随时间变化趋势如何？

（二）全国新增确诊/疑似/治愈/死亡情况随时间变化趋势如何？

（三）全国新增境外输入随时间变化趋势如何？

（四）你所在的省市情况如何？

（五）国外疫情态势如何？

（六）结合你的分析结果，对个人和社会在抗击疫情方面有何建议？

二. 理解数据

原始数据集：AreaInfo.csv，导入相关包及读取数据：

r_hex = '#dc2624'     # red,       RGB = 220,38,36
dt_hex = '#2b4750'    # dark teal, RGB = 43,71,80
tl_hex = '#45a0a2'    # teal,      RGB = 69,160,162
r1_hex = '#e87a59'    # red,       RGB = 232,122,89
tl1_hex = '#7dcaa9'   # teal,      RGB = 125,202,169
g_hex = '#649E7D'     # green,     RGB = 100,158,125
o_hex = '#dc8018'     # orange,    RGB = 220,128,24
tn_hex = '#C89F91'    # tan,       RGB = 200,159,145
g50_hex = '#6c6d6c'   # grey-50,   RGB = 108,109,108
bg_hex = '#4f6268'    # blue grey, RGB = 79,98,104
g25_hex = '#c7cccf'   # grey-25,   RGB = 199,204,207

import numpy as np
import pandas as pd
import matplotlib,re
import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator


data = pd.read_csv(r'data/AreaInfo.csv')

查看与统计数据，以对数据有一个大致了解

data.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_suspectedCount	city_curedCount	city_deadCount
0	北美洲	North America	美国	United States of America	美国	United States of America	971002	2306247	640198	120351	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	南美洲	South America	巴西	Brazil	巴西	Brazil	973003	1106470	549386	51271	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	欧洲	Europe	英国	United Kingdom	英国	United Kingdom	961007	305289	539	42647	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	欧洲	Europe	俄罗斯	Russia	俄罗斯	Russia	964006	592280	344416	8206	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	南美洲	South America	智利	Chile	智利	Chile	973004	246963	44946	4502	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN

三. 数据清洗

（一）基本数据处理

数据清洗主要包括：选取子集，缺失数据处理、数据格式转换、异常值数据处理等。

国内疫情数据选取（最终选取的数据命名为china）

选取国内疫情数据
对于更新时间(updateTime)列，需将其转换为日期类型并提取出年-月-日，并查看处理结果。(提示：dt.date)
因数据每天按小时更新，一天之内有很多重复数据，请去重并只保留一天之内最新的数据。

提示：df.drop_duplicates(subset=[‘provinceName’, ‘updateTime’], keep=‘first’, inplace=False)

其中df是你选择的国内疫情数据的DataFrame

分析：选取countryName一列中值为中国的行组成CHINA。

CHINA = data.loc[data['countryName'] == '中国']
CHINA.dropna(subset=['cityName'], how='any', inplace=True)
#CHINA

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

分析：取出含所有中国城市的列表

cities = list(set(CHINA['cityName']))

分析：遍历取出每一个城市的子dataframe，然后用sort对updateTime进行时间排序

for city in cities:
    CHINA.loc[data['cityName'] == city].sort_values(by = 'updateTime')

分析：去除空值所在行

CHINA.dropna(subset=['cityName'],inplace=True)
#CHINA.loc[CHINA['cityName'] == '秦皇岛'].tail(20)

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.

分析：将CHINA中的updateTime列进行格式化处理

CHINA.updateTime = pd.to_datetime(CHINA.updateTime,format="%Y-%m-%d",errors='coerce').dt.date
#CHINA.loc[data['cityName'] == '秦皇岛'].tail(15)

D:\Anaconda\envs\python32\lib\site-packages\pandas\core\generic.py:5303: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value

CHINA.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_suspectedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_curedCount	city_deadCount
136	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	317	1.0	307	3	2020-06-23	境外输入	NaN	0.0	72.0	65.0	0.0
137	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	317	1.0	307	3	2020-06-23	西安	Xi'an	610100.0	120.0	117.0	3.0
138	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	317	1.0	307	3	2020-06-23	安康	Ankang	610900.0	26.0	26.0	0.0
139	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	317	1.0	307	3	2020-06-23	汉中	Hanzhong	610700.0	26.0	26.0	0.0
140	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	317	1.0	307	3	2020-06-23	咸阳	Xianyang	610400.0	17.0	17.0	0.0

分析：每日数据的去重只保留第一个数据，因为前面已经对时间进行排序，第一个数据即为当天最新数据
分析：考虑到合并dataframe需要用到concat，需要创建一个初始china

real = CHINA.loc[data['cityName'] == cities[1]]
real.drop_duplicates(subset='updateTime', keep='first', inplace=True)
china = real

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

分析：遍历每个城市dataframe进行每日数据的去重，否则会出现相同日期只保留一个城市的数据的情况

for city in cities[2:]:
    real_data = CHINA.loc[data['cityName'] == city]
    real_data.drop_duplicates(subset='updateTime', keep='first', inplace=True)
    china = pd.concat([real_data, china],sort=False)

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until

查看数据信息，是否有缺失数据/数据类型是否正确。

提示：若不会处理缺失值，可以将其舍弃

分析：有的城市不是每日都上报的，如果某日只统计上报的那些城市，那些存在患者却不上报的城市就会被忽略，数据就失真了，需要补全所有城市每日的数据，即便不上报的城市也要每日记录数据统计，所以要进行插值处理补全部分数据，处理方法详见数据透视与分析

china.info()


Int64Index: 32812 entries, 96106 to 208267
Data columns (total 19 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   continentName            32812 non-null  object 
 1   continentEnglishName     32812 non-null  object 
 2   countryName              32812 non-null  object 
 3   countryEnglishName       32812 non-null  object 
 4   provinceName             32812 non-null  object 
 5   provinceEnglishName      32812 non-null  object 
 6   province_zipCode         32812 non-null  int64  
 7   province_confirmedCount  32812 non-null  int64  
 8   province_suspectedCount  32812 non-null  float64
 9   province_curedCount      32812 non-null  int64  
 10  province_deadCount       32812 non-null  int64  
 11  updateTime               32812 non-null  object 
 12  cityName                 32812 non-null  object 
 13  cityEnglishName          31968 non-null  object 
 14  city_zipCode             32502 non-null  float64
 15  city_confirmedCount      32812 non-null  float64
 16  city_suspectedCount      32812 non-null  float64
 17  city_curedCount          32812 non-null  float64
 18  city_deadCount           32812 non-null  float64
dtypes: float64(6), int64(4), object(9)
memory usage: 5.0+ MB

china.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_curedCount
96106	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	254	252	2	2020-04-02	贵港	Guigang	450800.0	8.0	8.0
125120	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	254	250	2	2020-03-20	贵港	Guigang	450800.0	8.0	8.0
128762	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	253	250	2	2020-03-18	贵港	Guigang	450800.0	8.0	8.0
130607	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	253	248	2	2020-03-17	贵港	Guigang	450800.0	8.0	8.0
131428	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	252	248	2	2020-03-16	贵港	Guigang	450800.0	8.0	8.0

你所在省市疫情数据选取（最终选取的数据命名为myhome）

此步也可在后面用到的再做

myhome = china.loc[data['provinceName'] == '广东省']
myhome.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_suspectedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_curedCount
205259	亚洲	Asia	中国	China	广东省	Guangdong	440000	277	0.0	5	0	2020-01-29	外地来粤人员	NaN	NaN	5.0	0.0
206335	亚洲	Asia	中国	China	广东省	Guangdong	440000	207	0.0	4	0	2020-01-28	河源市	NaN	NaN	1.0	0.0
205239	亚洲	Asia	中国	China	广东省	Guangdong	440000	277	0.0	5	0	2020-01-29	外地来穗人员	NaN	NaN	5.0	0.0
252	亚洲	Asia	中国	China	广东省	Guangdong	440000	1634	11.0	1619	8	2020-06-23	潮州	Chaozhou	445100.0	6.0	6.0
2655	亚洲	Asia	中国	China	广东省	Guangdong	440000	1634	11.0	1614	8	2020-06-21	潮州	Chaozhou	445100.0	6.0	6.0

国外疫情数据选取（最终选取的数据命名为world）

此步也可在后面用到的再做

world = data.loc[data['countryName'] != '中国']
world.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_suspectedCount	city_curedCount	city_deadCount
0	北美洲	North America	美国	United States of America	美国	United States of America	971002	2306247	640198	120351	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	南美洲	South America	巴西	Brazil	巴西	Brazil	973003	1106470	549386	51271	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	欧洲	Europe	英国	United Kingdom	英国	United Kingdom	961007	305289	539	42647	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	欧洲	Europe	俄罗斯	Russia	俄罗斯	Russia	964006	592280	344416	8206	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	南美洲	South America	智利	Chile	智利	Chile	973004	246963	44946	4502	2020-06-23 10:01:45	NaN	NaN	NaN	NaN	NaN	NaN	NaN

数据透视与分析

分析：对china进行插值处理补全部分数据

china.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_curedCount
96106	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	254	252	2	2020-04-02	贵港	Guigang	450800.0	8.0	8.0
125120	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	254	250	2	2020-03-20	贵港	Guigang	450800.0	8.0	8.0
128762	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	253	250	2	2020-03-18	贵港	Guigang	450800.0	8.0	8.0
130607	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	253	248	2	2020-03-17	贵港	Guigang	450800.0	8.0	8.0
131428	亚洲	Asia	中国	China	广西壮族自治区	Guangxi	450000	252	248	2	2020-03-16	贵港	Guigang	450800.0	8.0	8.0

分析：先创建省份列表和日期列表，并初始化一个draft

province = list(set(china['provinceName']))#每个省份
#p_city = list(set(china[china['provinceName'] == province[0]]['cityName']))#每个省份的城市
date_0 = []
for dt in china.loc[china['provinceName'] ==  province[0]]['updateTime']:
    date_0.append(str(dt))
date_0 = list(set(date_0))
date_0.sort()
start = china.loc[china['provinceName'] ==  province[0]]['updateTime'].min()
end = china.loc[china['provinceName'] ==  province[0]]['updateTime'].max()
dates = pd.date_range(start=str(start), end=str(end))
aid_frame = pd.DataFrame({
     'updateTime': dates,'provinceName':[province[0]]*len(dates)})
aid_frame.updateTime = pd.to_datetime(aid_frame.updateTime,format="%Y-%m-%d",errors='coerce').dt.date
#draft = pd.merge(china.loc[china['provinceName'] ==  province[1]], aid_frame, on='updateTime', how='outer').sort_values('updateTime')
draft = pd.concat([china.loc[china['provinceName'] ==  province[0]], aid_frame], join='outer').sort_values('updateTime')
draft.province_confirmedCount.fillna(method="ffill",inplace=True)
draft.province_suspectedCount.fillna(method="ffill", inplace=True)
draft.province_curedCount.fillna(method="ffill", inplace=True)
draft.province_deadCount.fillna(method="ffill", inplace=True)

分析：补全部分时间，取前日的数据进行插值，因为有的省份从4月末开始陆续就不再有新增病患，不再上报，所以这些省份的数据只能补全到4月末，往后的数据逐渐失去真实性

分析：同时进行日期格式化

for p in range(1,len(province)):
    date_d = []
    for dt in china.loc[china['provinceName'] ==  province[p]]['updateTime']:
        date_d.append(dt)
    date_d = list(set(date_d))
    date_d.sort()
    start = china.loc[china['provinceName'] ==  province[p]]['updateTime'].min()
    end = china.loc[china['provinceName'] ==  province[p]]['updateTime'].max()
    dates = pd.date_range(start=start, end=end)
    aid_frame = pd.DataFrame({
     'updateTime': dates,'provinceName':[province[p]]*len(dates)})
    aid_frame.updateTime = pd.to_datetime(aid_frame.updateTime,format="%Y-%m-%d",errors='coerce').dt.date
    X = china.loc[china['provinceName'] ==  province[p]]
    X.reset_index(drop= True)
    Y = aid_frame
    Y.reset_index(drop= True)
    draft_d = pd.concat([X,Y], join='outer').sort_values('updateTime')
    draft = pd.concat([draft,draft_d])
    draft.province_confirmedCount.fillna(method="ffill",inplace=True)
    draft.province_suspectedCount.fillna(method="ffill", inplace=True)
    draft.province_curedCount.fillna(method="ffill", inplace=True)
    draft.province_deadCount.fillna(method="ffill", inplace=True)
    #draft['updateTime'] = draft['updateTime'].strftime('%Y-%m-%d')
    #draft['updateTime'] = pd.to_datetime(draft['updateTime'],format="%Y-%m-%d",errors='coerce').dt.date

china = draft

china.head()

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount
208226	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	14.0	2020-01-26	外地来津	NaN	NaN	2.0
208224	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	14.0	2020-01-26	河北区	Hebei District	120105.0	5.0
208228	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	14.0	2020-01-26	和平区	Heping District	120101.0	1.0
208227	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	14.0	2020-01-26	滨海新区	Binhai New Area	120116.0	1.0
208230	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	14.0	2020-01-26	西青区	Xiqing District	120111.0	1.0

四. 数据分析及可视化

在进行数据分析及可视化时，依据每个问题选取所需变量并新建DataFrame再进行分析和可视化展示，这样数据不易乱且条理更清晰。

基础分析

基础分析，只允许使用numpy、pandas和matplotlib库。

可以在一张图上多个坐标系展示也可以在多张图上展示

请根据分析目的选择图形的类型(折线图、饼图、直方图和散点图等等)，实在没有主意可以到百度疫情地图或其他疫情分析的站点激发激发灵感。

（一）全国累计确诊/疑似/治愈/死亡情况随时间变化趋势如何？

分析：要获得全国累计情况随时间变化趋势，首先需要整合每日全国累计确诊情况做成date_confirmed

分析：要整合每日全国累计确诊情况，首先得提取每个省份每日当天最新累计确诊人数，省份数据求和后形成dataframe，
for循环拼接到date_confirmed中

date = list(set(china['updateTime']))
date.sort()
date

[datetime.date(2020, 1, 24),
 datetime.date(2020, 1, 25),
 datetime.date(2020, 1, 26),
 datetime.date(2020, 1, 27),
 datetime.date(2020, 1, 28),
 datetime.date(2020, 1, 29),
 datetime.date(2020, 1, 30),
 datetime.date(2020, 1, 31),
 datetime.date(2020, 2, 1),
 datetime.date(2020, 2, 2),
 datetime.date(2020, 2, 3),
 datetime.date(2020, 2, 4),
 datetime.date(2020, 2, 5),
 datetime.date(2020, 2, 6),
 datetime.date(2020, 2, 7),
 datetime.date(2020, 2, 8),
 datetime.date(2020, 2, 9),
 datetime.date(2020, 2, 10),
 datetime.date(2020, 2, 11),
 datetime.date(2020, 2, 12),
 datetime.date(2020, 2, 13),
 datetime.date(2020, 2, 14),
 datetime.date(2020, 2, 15),
 datetime.date(2020, 2, 16),
 datetime.date(2020, 2, 17),
 datetime.date(2020, 2, 18),
 datetime.date(2020, 2, 19),
 datetime.date(2020, 2, 20),
 datetime.date(2020, 2, 21),
 datetime.date(2020, 2, 22),
 datetime.date(2020, 2, 23),
 datetime.date(2020, 2, 24),
 datetime.date(2020, 2, 25),
 datetime.date(2020, 2, 26),
 datetime.date(2020, 2, 27),
 datetime.date(2020, 2, 28),
 datetime.date(2020, 2, 29),
 datetime.date(2020, 3, 1),
 datetime.date(2020, 3, 2),
 datetime.date(2020, 3, 3),
 datetime.date(2020, 3, 4),
 datetime.date(2020, 3, 5),
 datetime.date(2020, 3, 6),
 datetime.date(2020, 3, 7),
 datetime.date(2020, 3, 8),
 datetime.date(2020, 3, 9),
 datetime.date(2020, 3, 10),
 datetime.date(2020, 3, 11),
 datetime.date(2020, 3, 12),
 datetime.date(2020, 3, 13),
 datetime.date(2020, 3, 14),
 datetime.date(2020, 3, 15),
 datetime.date(2020, 3, 16),
 datetime.date(2020, 3, 17),
 datetime.date(2020, 3, 18),
 datetime.date(2020, 3, 19),
 datetime.date(2020, 3, 20),
 datetime.date(2020, 3, 21),
 datetime.date(2020, 3, 22),
 datetime.date(2020, 3, 23),
 datetime.date(2020, 3, 24),
 datetime.date(2020, 3, 25),
 datetime.date(2020, 3, 26),
 datetime.date(2020, 3, 27),
 datetime.date(2020, 3, 28),
 datetime.date(2020, 3, 29),
 datetime.date(2020, 3, 30),
 datetime.date(2020, 3, 31),
 datetime.date(2020, 4, 1),
 datetime.date(2020, 4, 2),
 datetime.date(2020, 4, 3),
 datetime.date(2020, 4, 4),
 datetime.date(2020, 4, 5),
 datetime.date(2020, 4, 6),
 datetime.date(2020, 4, 7),
 datetime.date(2020, 4, 8),
 datetime.date(2020, 4, 9),
 datetime.date(2020, 4, 10),
 datetime.date(2020, 4, 11),
 datetime.date(2020, 4, 12),
 datetime.date(2020, 4, 13),
 datetime.date(2020, 4, 14),
 datetime.date(2020, 4, 15),
 datetime.date(2020, 4, 16),
 datetime.date(2020, 4, 17),
 datetime.date(2020, 4, 18),
 datetime.date(2020, 4, 19),
 datetime.date(2020, 4, 20),
 datetime.date(2020, 4, 21),
 datetime.date(2020, 4, 22),
 datetime.date(2020, 4, 23),
 datetime.date(2020, 4, 24),
 datetime.date(2020, 4, 25),
 datetime.date(2020, 4, 26),
 datetime.date(2020, 4, 27),
 datetime.date(2020, 4, 28),
 datetime.date(2020, 4, 29),
 datetime.date(2020, 4, 30),
 datetime.date(2020, 5, 1),
 datetime.date(2020, 5, 2),
 datetime.date(2020, 5, 3),
 datetime.date(2020, 5, 4),
 datetime.date(2020, 5, 5),
 datetime.date(2020, 5, 6),
 datetime.date(2020, 5, 7),
 datetime.date(2020, 5, 8),
 datetime.date(2020, 5, 9),
 datetime.date(2020, 5, 10),
 datetime.date(2020, 5, 11),
 datetime.date(2020, 5, 12),
 datetime.date(2020, 5, 13),
 datetime.date(2020, 5, 14),
 datetime.date(2020, 5, 15),
 datetime.date(2020, 5, 16),
 datetime.date(2020, 5, 17),
 datetime.date(2020, 5, 18),
 datetime.date(2020, 5, 19),
 datetime.date(2020, 5, 20),
 datetime.date(2020, 5, 21),
 datetime.date(2020, 5, 22),
 datetime.date(2020, 5, 23),
 datetime.date(2020, 5, 24),
 datetime.date(2020, 5, 25),
 datetime.date(2020, 5, 26),
 datetime.date(2020, 5, 27),
 datetime.date(2020, 5, 28),
 datetime.date(2020, 5, 29),
 datetime.date(2020, 5, 30),
 datetime.date(2020, 5, 31),
 datetime.date(2020, 6, 1),
 datetime.date(2020, 6, 2),
 datetime.date(2020, 6, 3),
 datetime.date(2020, 6, 4),
 datetime.date(2020, 6, 5),
 datetime.date(2020, 6, 6),
 datetime.date(2020, 6, 7),
 datetime.date(2020, 6, 8),
 datetime.date(2020, 6, 9),
 datetime.date(2020, 6, 10),
 datetime.date(2020, 6, 11),
 datetime.date(2020, 6, 12),
 datetime.date(2020, 6, 13),
 datetime.date(2020, 6, 14),
 datetime.date(2020, 6, 15),
 datetime.date(2020, 6, 16),
 datetime.date(2020, 6, 17),
 datetime.date(2020, 6, 18),
 datetime.date(2020, 6, 19),
 datetime.date(2020, 6, 20),
 datetime.date(2020, 6, 21),
 datetime.date(2020, 6, 22),
 datetime.date(2020, 6, 23)]

china = china.set_index('provinceName')
china = china.reset_index()

分析：循环遍历省份和日期获得每个省份每日累计确诊，因为需要拼接，先初始化一个date_confirmed

list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = china.loc[china['updateTime'] == date[2]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['province_confirmedCount'])#该日每省的累计确诊人数
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_confirmed = pd.DataFrame(list_d,index=list_e)
date_confirmed.index.name="date"
date_confirmed.columns=["China_confirmedCount"]
date_confirmed

	China_confirmedCount
date
2020-01-24	1956.0

分析：遍历每个省份拼接每日的总确诊人数的dataframe

l = 0
for i in date[3:]:
    list_p = []
    list_d = []
    list_e = []
    l +=1
    for p in range(0,32):
        try:
            con_0 = china.loc[china['updateTime'] == date[l]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
            list_p.append(con_0['province_confirmedCount'])#该日每省的累计确诊人数
        except:
            continue
    #con_0 = china.loc[china['updateTime'] == date[0]].loc[china['provinceName'] == '河北省'].loc[[0]].iloc[0]
    #list_p.append(con_0['province_confirmedCount'])#该日每省的累计确诊人数
    list_d.append(sum(list_p))
    list_e.append(str(date[l]))
    confirmed = pd.DataFrame(list_d, index=list_e)
    confirmed.index.name="date"
    confirmed.columns=["China_confirmedCount"]
    date_confirmed = pd.concat([date_confirmed,confirmed],sort=False)
date_confirmed

	China_confirmedCount
date
2020-01-24	1956.0
2020-01-25	2253.0
2020-01-26	1956.0
2020-01-27	2825.0
2020-01-28	4589.0
...	...
2020-06-17	8106.0
2020-06-18	6862.0
2020-06-19	6894.0
2020-06-20	6921.0
2020-06-21	6157.0

150 rows × 1 columns

分析：去除空值和不全的值

date_confirmed.dropna(subset=['China_confirmedCount'],inplace=True)
date_confirmed.tail(20)

	China_confirmedCount
date
2020-06-02	78782.0
2020-06-03	78780.0
2020-06-04	76903.0
2020-06-05	76908.0
2020-06-06	8777.0
2020-06-07	8782.0
2020-06-08	8628.0
2020-06-09	8634.0
2020-06-10	8638.0
2020-06-11	8649.0
2020-06-12	8658.0
2020-06-13	8665.0
2020-06-14	8733.0
2020-06-15	8772.0
2020-06-16	8055.0
2020-06-17	8106.0
2020-06-18	6862.0
2020-06-19	6894.0
2020-06-20	6921.0
2020-06-21	6157.0

分析：数据从4月末开始到5月末就因为缺失过多省份的数据(部分省份从4月末至今再也没有新增病患)而失真，自2020-06-06起完全失去真实性，所以我删除了2020-06-06往后的数据

date_confirmed = date_confirmed.drop(['2020-06-06','2020-06-07','2020-06-08','2020-06-09','2020-06-10','2020-06-11','2020-06-12','2020-06-13','2020-06-14',
                     '2020-06-15','2020-06-16','2020-06-19','2020-06-18','2020-06-20','2020-06-17','2020-06-21'])

分析：构造拼接函数

def data_frame(self,china,element):
    l = 0
    for i in date[3:]:
        list_p = []
        list_d = []
        list_e = []
        l +=1
        for p in range(0,32):
            try:
                con_0 = china.loc[china['updateTime'] == date[l]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
                list_p.append(con_0[element])
            except:
                continue
        #con_0 = china.loc[china['updateTime'] == date[0]].loc[china['provinceName'] == '河北省'].loc[[0]].iloc[0]
        #list_p.append(con_0['province_confirmedCount'])
        list_d.append(sum(list_p))
        list_e.append(str(date[l]))
        link = pd.DataFrame(list_d, index=list_e)
        link.index.name="date"
        link.columns=["China"]
        self = pd.concat([self,link],sort=False)
    self.dropna(subset=['China'],inplace=True)
    self = self.drop(['2020-06-06','2020-06-07','2020-06-08','2020-06-09','2020-06-10','2020-06-11','2020-06-12','2020-06-13','2020-06-14',
                  '2020-06-15','2020-06-16','2020-06-19','2020-06-18','2020-06-20','2020-06-17','2020-06-21'])
    return self

分析：初始化各个变量

#累计治愈人数  date_curedCount
list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = china.loc[china['updateTime'] == date[2]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['province_curedCount'])
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_cured = pd.DataFrame(list_d, index=list_e)
date_cured.index.name="date"
date_cured.columns=["China"]



#累计死亡人数  date_dead
list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = china.loc[china['updateTime'] == date[2]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['province_deadCount'])
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_dead = pd.DataFrame(list_d, index=list_e)
date_dead.index.name="date"
date_dead.columns=["China"]

#累计确诊患者  date_confirmed
plt.rcParams['font.sans-serif'] = ['SimHei'] #更改字体,否则无法显示汉字
fig = plt.figure( figsize=(16,6), dpi=100)
ax = fig.add_subplot(1,1,1)
x = date_confirmed.index
y = date_confirmed.values
ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-' )
ax.set_title('累计确诊患者',fontdict={
     
      'color':'black',
      'size':24
})
ax.set_xticks( range(0,len(x),30))

[,
 ,
 ,
 ,
 ]

#累计治愈患者 date_curedCount
date_cured = data_frame(date_cured,china,'province_curedCount')
fig = plt.figure( figsize=(16,6), dpi=100)
ax = fig.add_subplot(1,1,1)
x = date_cured.index
y = date_cured.values
ax.set_title('累计治愈患者',fontdict={
     
      'color':'black',
      'size':24
})
ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-' )
ax.set_xticks( range(0,len(x),30))

[,
 ,
 ,
 ,
 ]

分析：累计疑似无法通过补全数据得到

#累计死亡患者 date_dead
date_dead = data_frame(date_dead,china,'province_deadCount')
fig = plt.figure( figsize=(16,6), dpi=100)
ax = fig.add_subplot(1,1,1)
x = date_dead.index
y = date_dead.values
ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-' )
x_major_locator=MultipleLocator(12)
ax=plt.gca()
ax.set_title('累计死亡患者',fontdict={
     
      'color':'black',
      'size':24
})
ax.xaxis.set_major_locator(x_major_locator)
ax.set_xticks( range(0,len(x),30))

[,
 ,
 ,
 ,
 ]

分析：疫情自1月初开始爆发，到2月末开始减缓增速，到4月末趋于平缓。治愈人数自2月初开始大幅增加，到3月末趋于平缓，死亡人数自1月末开始增加，到2月末趋于平缓，到4月末因为统计因素死亡人数飙升后趋于平缓。
分析总结：确诊人数数据和治愈数据从4月末开始到5月末就因为缺失过多省份的数据(部分省份至今再也没有新增病患)导致失真，其他数据尽量通过补全,越靠近尾部数据越失真。死亡数据补全较为成功，几乎没有错漏。

（二）全国新增确诊/疑似/治愈/死亡情况随时间变化趋势如何？

分析：新增确诊/治愈/死亡的数据需要对china进行运算，每省每日进行diff差值运算

分析：首先初始化各个数据，然后仿照上面的拼接函数，作适用于该题的拼接函数

#新增确诊人数  date_new_confirmed
list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = china.loc[china['updateTime'] == date[2]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['province_confirmedCount'])#该日每省的累计确诊人数
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_new_confirmed = pd.DataFrame(list_d,index=list_e)
date_new_confirmed.index.name="date"
date_new_confirmed.columns=["China"]
date_new_confirmed


#新增治愈人数  date_new_curedCount
list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = china.loc[china['updateTime'] == date[2]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['province_curedCount'])
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_new_cured = pd.DataFrame(list_d, index=list_e)
date_new_cured.index.name="date"
date_new_cured.columns=["China"]


#新增死亡人数  date_new_dead
list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = china.loc[china['updateTime'] == date[2]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['province_deadCount'])
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_new_dead = pd.DataFrame(list_d, index=list_e)
date_new_dead.index.name="date"
date_new_dead.columns=["China"]

分析：构造拼接函数

def data_new_frame(self,china,element):
    l = 0
    for i in date[3:]:
        list_p = []
        list_d = []
        list_e = []
        l +=1
        for p in range(0,32):
            try:
                con_0 = china.loc[china['updateTime'] == date[l]].loc[china['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
                list_p.append(con_0[element])
            except:
                continue
        #con_0 = china.loc[china['updateTime'] == date[0]].loc[china['provinceName'] == '河北省'].loc[[0]].iloc[0]
        #list_p.append(con_0['province_confirmedCount'])
        list_d.append(sum(list_p))
        list_e.append(str(date[l]))
        link = pd.DataFrame(list_d, index=list_e)
        link.index.name="date"
        link.columns=["China"]
        self = pd.concat([self,link],sort=False)
    self.dropna(subset=['China'],inplace=True)
    return self

分析：数据补全以及去除含缺失省份的数据

d = data_new_frame(date_new_confirmed,china,'province_confirmedCount')
for i in range(len(d)):
    dr = []
    for a,b in zip(range(0,len(d)-1),range(1,len(d)-2)):
        if d.iloc[b].iloc[0] < d.iloc[a].iloc[0]:
            dr.append(d.iloc[b].iloc[0])
    d = d[~d['China'].isin(dr)]

分析：做差值运算

d['China'] = d['China'].diff()

分析：去除两个含缺失省份的日期

d.drop(['2020-06-20','2020-06-21'],inplace=True)

分析：作折线图表现时间趋势

#新增确诊患者  date_confirmed
fig = plt.figure( figsize=(16,6), dpi=100)
ax = fig.add_subplot(1,1,1)
x = d.index
y = d.values
ax.set_title('新增确诊患者',fontdict={
     
      'color':'black',
      'size':24
})
ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-' )
ax.set_xticks( range(0,len(x),10))

[,
 ,
 ,
 ,
 ,
 ,
 ,
 ]

分析：使用初始化数据构造date_new_cured的dataframe，然后作折线图表现时间趋势

cu = data_new_frame(date_new_cured,china,'province_curedCount')
for i in range(len(cu)):
    dr = []
    for a,b in zip(range(0,len(cu)-1),range(1,len(cu)-2)):
        if cu.iloc[b].iloc[0] < cu.iloc[a].iloc[0]:
            dr.append(cu.iloc[b].iloc[0])
    cu = cu[~cu['China'].isin(dr)]
cu['China'] = cu['China'].diff()
cu.drop(['2020-06-20','2020-06-21'],inplace=True)
#新增治愈患者  date_new_cured
fig = plt.figure( figsize=(16,6), dpi=100)
ax = fig.add_subplot(1,1,1)
x = cu.index
y = cu.values
ax.set_title('新增治愈患者',fontdict={
     
      'color':'black',
      'size':24
})
ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-' )
ax.set_xticks( range(0,len(x),10))

[,
 ,
 ,
 ,
 ,
 ,
 ]

分析：使用初始化数据构造date_new_dead的dataframe，然后作折线图表现时间趋势

de = data_new_frame( date_new_dead,china,'province_deadCount')
for i in range(len(de)):
    dr = []
    for a,b in zip(range(0,len(de)-1),range(1,len(de)-2)):
        if de.iloc[b].iloc[0] < de.iloc[a].iloc[0]:
            dr.append(de.iloc[b].iloc[0])
    de = de[~de['China'].isin(dr)]
de['China'] = de['China'].diff()
de.drop(['2020-06-21'],inplace=True)
#新增死亡患者   date_new_dead
fig = plt.figure( figsize=(16,6), dpi=100)
ax = fig.add_subplot(1,1,1)
x = de.index
y = de.values
ax.set_title('新增死亡患者',fontdict={
     
      'color':'black',
      'size':24
})
ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-' )
ax.set_xticks( range(0,len(x),10))

[,
 ,
 ,
 ,
 ,
 ,
 ,
 ,
 ]

分析：新增患者自1月末开始增加，到2月14日前后到达顶点，后增数下降，趋于平缓。
分析：新增治愈患者自1月末开始增加，到3月02日前后达到顶峰，后增数下降，从4月初开始趋于平缓。
分析：新增死亡患者自1月末开始增加，到2月达到高峰，自3月初开始增数平缓，到4月17日前后因为统计因素飙升后回落。

（三）全国新增境外输入随时间变化趋势如何？

分析：新增境外输入数据需要对CHINA进行运算，逐日相减。

分析：先从CHINA取出境外输入的数据，然后补全时间序列并作差。

imported = CHINA.loc[CHINA['cityName'] == '境外输入']
imported.updateTime = pd.to_datetime(imported.updateTime,format="%Y-%m-%d",errors='coerce').dt.date
imported

D:\Anaconda\envs\python32\lib\site-packages\pandas\core\generic.py:5303: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_suspectedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_suspectedCount	city_curedCount	city_deadCount
136	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	317	1.0	307	3	2020-06-23	境外输入	NaN	0.0	72.0	0.0	65.0	0.0
150	亚洲	Asia	中国	China	江苏省	Jiangsu	320000	654	3.0	653	0	2020-06-23	境外输入	NaN	0.0	23.0	0.0	22.0	0.0
201	亚洲	Asia	中国	China	北京市	Beijing	110000	843	164.0	584	9	2020-06-23	境外输入	NaN	0.0	174.0	3.0	173.0	0.0
214	亚洲	Asia	中国	China	河北省	Hebei	130000	346	0.0	323	6	2020-06-23	境外输入	NaN	0.0	10.0	0.0	10.0	0.0
218	亚洲	Asia	中国	China	天津市	Tianjin	120000	198	48.0	192	3	2020-06-23	境外输入	NaN	0.0	61.0	0.0	59.0	0.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
115420	亚洲	Asia	中国	China	陕西省	Shaanxi	610000	250	1.0	240	3	2020-03-25	境外输入	NaN	0.0	5.0	1.0	0.0	0.0
115956	亚洲	Asia	中国	China	天津市	Tianjin	120000	145	0.0	133	3	2020-03-24	境外输入	NaN	0.0	9.0	0.0	0.0	0.0
116164	亚洲	Asia	中国	China	甘肃省	Gansu	620000	136	0.0	119	2	2020-03-24	境外输入	NaN	0.0	45.0	0.0	30.0	0.0
117171	亚洲	Asia	中国	China	上海市	Shanghai	310000	414	0.0	330	4	2020-03-24	境外输入	NaN	0.0	75.0	0.0	3.0	0.0
117597	亚洲	Asia	中国	China	天津市	Tianjin	120000	142	0.0	133	3	2020-03-24	境外输入	NaN	0.0	6.0	0.0	0.0	0.0

607 rows × 19 columns

分析：补全省份缺失时间的数据

for i in range(0,len(province)):
    list_j_d = []
    date_b = []
    for dt in imported.loc[imported['provinceName'] ==  province[i]]['updateTime']:
        date_b.append(str(dt))
    list_j_d = list(set(date_b))
    list_j_d.sort()
    #imported.loc[imported['provinceName'] == province[3]]
    try:
        start = imported.loc[imported['provinceName'] ==  province[i]]['updateTime'].min()
        end = imported.loc[imported['provinceName'] ==  province[i]]['updateTime'].max()
        dates_b = pd.date_range(start=str(start), end=str(end))
        aid_frame_b = pd.DataFrame({
     'updateTime': dates_b,'provinceName':[province[i]]*len(dates_b)})
        aid_frame_b.updateTime = pd.to_datetime(aid_frame_b.updateTime,format="%Y-%m-%d",errors='coerce').dt.date
        #draft = pd.merge(china.loc[china['provinceName'] ==  province[1]], aid_frame, on='updateTime', how='outer').sort_values('updateTime')
        draft_b = pd.concat([imported.loc[imported['provinceName'] ==  province[i]], aid_frame_b], join='outer').sort_values('updateTime')
        draft_b.city_confirmedCount.fillna(method="ffill",inplace=True)
        draft_b.city_suspectedCount.fillna(method="ffill", inplace=True)
        draft_b.city_curedCount.fillna(method="ffill", inplace=True)
        draft_b.city_deadCount.fillna(method="ffill", inplace=True)
        draft_b.loc[draft_b['provinceName'] ==  province[i]].fillna(0,inplace=True,limit = 1)
        draft_b.loc[draft_b['provinceName'] ==  province[i]].loc[:,'city_confirmedCount':'city_deadCount'] = draft_b.loc[draft_b['provinceName'] ==  province[i]].loc[:,'city_confirmedCount':'city_deadCount'].diff()
        draft_b.dropna(subset=['city_confirmedCount','city_suspectedCount','city_curedCount','city_deadCount'],inplace=True)
        imported = pd.concat([imported,draft_b], join='outer').sort_values('updateTime')
    except:
        continue
imported

	continentName	continentEnglishName	countryName	countryEnglishName	provinceName	provinceEnglishName	province_zipCode	province_confirmedCount	province_suspectedCount	province_curedCount	province_deadCount	updateTime	cityName	cityEnglishName	city_zipCode	city_confirmedCount	city_suspectedCount	city_curedCount	city_deadCount
115956	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	145.0	0.0	133.0	3.0	2020-03-24	境外输入	NaN	0.0	9.0	0.0	0.0	0.0
0	NaN	NaN	NaN	NaN	甘肃省	NaN	NaN	NaN	NaN	NaN	NaN	2020-03-24	NaN	NaN	NaN	45.0	0.0	30.0	0.0
117597	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	142.0	0.0	133.0	3.0	2020-03-24	境外输入	NaN	0.0	6.0	0.0	0.0	0.0
117597	亚洲	Asia	中国	China	天津市	Tianjin	120000.0	142.0	0.0	133.0	3.0	2020-03-24	境外输入	NaN	0.0	6.0	0.0	0.0	0.0
116164	亚洲	Asia	中国	China	甘肃省	Gansu	620000.0	136.0	0.0	119.0	2.0	2020-03-24	境外输入	NaN	0.0	45.0	0.0	30.0	0.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
150	亚洲	Asia	中国	China	江苏省	Jiangsu	320000.0	654.0	3.0	653.0	0.0	2020-06-23	境外输入	NaN	0.0	23.0	0.0	22.0	0.0
136	亚洲	Asia	中国	China	陕西省	Shaanxi	610000.0	317.0	1.0	307.0	3.0	2020-06-23	境外输入	NaN	0.0	72.0	0.0	65.0	0.0
91	NaN	NaN	NaN	NaN	天津市	NaN	NaN	NaN	NaN	NaN	NaN	2020-06-23	NaN	NaN	NaN	61.0	0.0	59.0	0.0
136	亚洲	Asia	中国	China	陕西省	Shaanxi	610000.0	317.0	1.0	307.0	3.0	2020-06-23	境外输入	NaN	0.0	72.0	0.0	65.0	0.0
201	亚洲	Asia	中国	China	北京市	Beijing	110000.0	843.0	164.0	584.0	9.0	2020-06-23	境外输入	NaN	0.0	174.0	3.0	173.0	0.0

2524 rows × 19 columns

分析：作copy()防止数据处理失误使得原数据丢失

draft_i = imported.copy()

分析：初始化一个省份数据，保证这个方法可行

real_s = imported.loc[imported['provinceName'] == province[0]]
real_s.drop_duplicates(subset='updateTime', keep='first', inplace=True)
draft_i =  real_s
for p in province:
    real_data = imported.loc[imported['provinceName'] == p]
    real_data.drop_duplicates(subset='updateTime', keep='first', inplace=True)
    #imported = pd.concat([real_data, china],sort=False)
    draft_i = pd.concat([real_data,draft_i],sort=False)

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:6: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

分析：确认方法无误，对余下省份进行相同的处理

imported = draft_i

imported = imported.set_index('provinceName')
imported = imported.reset_index()

分析：进行各个省份的数据合并。

list_p = []
list_d = []
list_e = []
for p in range(0,32):
    try:
        con_0 = imported.loc[imported['updateTime'] == date[2]].loc[imported['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
        list_p.append(con_0['city_confirmedCount'])#该日每省的累计确诊人数
    except:
        continue
list_d.append(sum(list_p))
list_e.append(str(date[0]))
date_new_foreign_confirmed = pd.DataFrame(list_d,index=list_e)
date_new_foreign_confirmed.index.name="date"
date_new_foreign_confirmed.columns=["imported_confirmedCount"]
date_new_foreign_confirmed

	imported_confirmedCount
date
2020-01-24	0

l = 0
for i in date[3:]:
    list_p = []
    list_d = []
    list_e = []
    l +=1
    for p in range(0,32):
        try:
            con_0 = imported.loc[imported['updateTime'] == date[l]].loc[imported['provinceName'] ==  province[p]].iloc[[0]].iloc[0] 
            list_p.append(con_0['city_confirmedCount'])#该日每省的累计确诊人数
        except:
            continue
    #con_0 = imported.loc[imported['updateTime'] == date[0]].loc[imported['provinceName'] == '河北省'].loc[[0]].iloc[0]
    #list_p.append(con_0['city_confirmedCount'])#该日每省的累计确诊人数
    list_d.append(sum(list_p))
    list_e.append(str(date[l]))
    confirmed = pd.DataFrame(list_d, index=list_e)
    confirmed.index.name="date"
    confirmed.columns=["imported_confirmedCount"]
    date_new_foreign_confirmed = pd.concat([date_new_foreign_confirmed,confirmed],sort=False)
date_new_foreign_confirmed

	imported_confirmedCount
date
2020-01-24	0.0
2020-01-25	0.0
2020-01-26	0.0
2020-01-27	0.0
2020-01-28	0.0
...	...
2020-06-17	848.0
2020-06-18	800.0
2020-06-19	800.0
2020-06-20	802.0
2020-06-21	775.0

150 rows × 1 columns

#新增境外输入
fig = plt.figure( figsize=(16,4), dpi=100)
ax = fig.add_subplot(1,1,1)
x = date_new_foreign_confirmed.index
y = date_new_foreign_confirmed.values
plot = ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-',label='date_new_foreign_confirmed' )
ax.set_xticks( range(0,len(x),10))
plt.xlabel('日期',fontsize=20)
plt.ylabel('人数',fontsize=20)
plt.title('COVID-19——新增境外输入',fontsize=30)
ax.legend( loc=0, frameon=True )

分析总结：境外输入病例自3月末开始激增，到5月初增速趋于平缓，到6月初开始增速减缓。

（四）你所在的省市情况如何？

分析：首先取出广东省的所有时间序列,转换成string类型,然后进行排序

m_dates = list(set(myhome['updateTime']))
aid_d = m_dates.copy()
for d in aid_d:
    a = str(d)
    m_dates.remove(d)
    m_dates.append(a)
m_dates.sort()

myhome = myhome.set_index('provinceName')
myhome = myhome.reset_index()

分析：遍历我的城市对应的省份的时间构建对应的dataframe

#广东省累计确诊人数
list_g = []
for i in range(0,len(m_dates)):
    try:
        con_m = myhome.loc[myhome['updateTime'] == date[i]].loc[myhome['cityName'] == '茂名'].iloc[[0]].iloc[0] 
        list_g.append(con_m['province_confirmedCount'])
    except:
        list_g.append(0)
        continue
g_date_confirmed = pd.DataFrame(list_g, index=m_dates)
g_date_confirmed.index.name="date"
g_date_confirmed.columns=["g_confirmed"]
g_date_confirmed=g_date_confirmed[~g_date_confirmed['g_confirmed'].isin([0])]


#广东省累计治愈人数
list_g = []
for i in range(0,len(m_dates)):
    try:
        con_m = myhome.loc[myhome['updateTime'] == date[i]].loc[myhome['cityName'] == '茂名'].iloc[[0]].iloc[0] 
        list_g.append(con_m['province_curedCount'])
    except:
        list_g.append(0)
        continue
g_date_cured = pd.DataFrame(list_g, index=m_dates)
g_date_cured.index.name="date"
g_date_cured.columns=["g_cured"]
g_date_cured=g_date_cured[~g_date_cured['g_cured'].isin([0])]


#广东省累计死亡人数
list_g = []
for i in range(0,len(m_dates)):
    try:
        con_m = myhome.loc[myhome['updateTime'] == date[i]].loc[myhome['cityName'] == '茂名'].iloc[[0]].iloc[0] 
        list_g.append(con_m['province_deadCount'])
    except:
        list_g.append(0)
        continue
g_date_dead = pd.DataFrame(list_g, index=m_dates)
g_date_dead.index.name="date"
g_date_dead.columns=["g_dead"]
g_date_dead=g_date_dead[~g_date_dead['g_dead'].isin([0])]

分析：作折线图表现疫情随时间变化趋势

##广东省累计确诊人数  广东省累计治愈人数
plt.rcParams['font.sans-serif'] = ['SimHei'] 
x= g_date_confirmed.index
y1 = g_date_confirmed.values
y2 = g_date_cured.values
y3 = g_date_dead
#font_manager = font_manager.FontProperties(fname = 'C:/Windows/Fonts/simsun.ttc',size = 18)
plt.figure(figsize=(20,10),dpi = 80)
plt.plot(x,y1,color = r_hex,label = 'confirmed')
plt.plot(x,y2,color = g_hex,label = 'cured')
x_major_locator=MultipleLocator(12)
ax=plt.gca()
ax.xaxis.set_major_locator(x_major_locator)
plt.title('COVID-19 —— 广东省',fontsize=30)
plt.xlabel('日期',fontsize=20)
plt.ylabel('人数',fontsize=20)
plt.legend(loc=1, bbox_to_anchor=(1.00,0.90), bbox_transform=ax.transAxes)

#广东省累计死亡人数
plt.rcParams['font.sans-serif'] = ['SimHei'] 
fig = plt.figure( figsize=(16,4), dpi=100)
ax = fig.add_subplot(1,1,1)
x = g_date_dead.index
y = g_date_dead.values
plot = ax.plot( x, y, color=dt_hex, linewidth=2, linestyle='-',label='dead' )
ax.set_xticks( range(0,len(x),10))
plt.xlabel('日期',fontsize=20)
plt.ylabel('人数',fontsize=20)
plt.title('COVID-19——广东省',fontsize=30)
ax.legend( loc=0, frameon=True )

分析：广东省的数据补全很成功，真实性高。
分析：从折线图来看，广东省自1月末起感染人数激增，直到2月中旬趋于平缓，3月初开始由于检测普及以及统计因素，短期确诊患者人数小幅度增加。广东省自2月初开始治愈人数激增，直到6月初开始因为新增感染人数趋于平缓，所以治愈人数趋于平缓。广东省自3月初开始不再有新增死亡患者。

（五）国外疫情态势如何？

分析：数据去除空值

world.dropna(axis=1, how='any', inplace=True)
#world.set_index('updateTime')

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.

分析：创建国家列表country，创建日期列表date_y

country = list(set(world['provinceName']))
date_y = []
for dt in world.loc[world['provinceName'] ==  country[0]]['updateTime']:
    date_y.append(str(dt))
date_y = list(set(date_0))
date_y.sort()

分析：遍历国家列表对world中的updateTime进行处理并去重。

for c in country:
    world.loc[world['provinceName'] == c].sort_values(by = 'updateTime')
world.dropna(subset=['provinceName'],inplace=True)
world.updateTime = pd.to_datetime(world.updateTime,format="%Y-%m-%d",errors='coerce').dt.date

D:\Anaconda\envs\python32\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
D:\Anaconda\envs\python32\lib\site-packages\pandas\core\generic.py:5303: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value

分析：取前15个国家的province_confirmedCount透视构成world_confirmed，并进行数据补全处理

world_confirmed = world.loc[world['provinceName'] == world.head(15)['provinceName'][0]].pivot_table(index='updateTime', columns='provinceName', values='province_confirmedCount',aggfunc=np.mean)
for i in world.head(15)['provinceName'][1:]:
    draft_c = world.loc[world['provinceName'] == i].pivot_table(index='updateTime', columns='provinceName', values='province_confirmedCount',aggfunc=np.mean)
    world_confirmed = pd.merge(world_confirmed,draft_c,on='updateTime', how='outer',sort=True)
world_confirmed.fillna(0,inplace=True,limit = 1)
world_confirmed.fillna(method="ffill",inplace=True)
world_confirmed

provinceName	美国	巴西	英国	俄罗斯	智利	印度	巴基斯坦	秘鲁	西班牙	孟加拉国	法国	沙特阿拉伯	瑞典	南非	厄瓜多尔
updateTime
2020-01-27	5.000000e+00	0.00	0.000000	0.0	0.0	0.000000	0.000000	0.000000	0.00	0.00	3.000000	0.000000	0.000000	0.0	0.000000
2020-01-29	0.000000e+00	0.00	0.000000	0.0	0.0	0.000000	0.000000	0.000000	0.00	0.00	4.000000	0.000000	0.000000	0.0	0.000000
2020-01-30	0.000000e+00	0.00	0.000000	0.0	0.0	1.000000	0.000000	0.000000	0.00	0.00	5.000000	0.000000	0.000000	0.0	0.000000
2020-01-31	6.000000e+00	0.00	2.000000	2.0	0.0	1.000000	0.000000	0.000000	0.00	0.00	0.000000	0.000000	0.000000	0.0	0.000000
2020-02-01	6.000000e+00	0.00	2.000000	2.0	0.0	1.000000	0.000000	0.000000	4.00	0.00	5.500000	0.000000	1.000000	0.0	0.000000
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
2020-06-19	2.184912e+06	976906.50	300469.000000	563084.0	225103.0	371474.666667	162935.600000	243518.000000	245268.00	102292.00	158641.000000	145991.000000	55672.750000	83020.5	48256.400000
2020-06-20	2.221982e+06	1038568.00	302138.750000	573007.5	231393.0	390209.333333	169464.666667	247925.000000	245665.75	105535.00	159452.000000	151277.250000	56201.500000	87715.0	49519.666667
2020-06-21	2.253118e+06	1068977.25	303284.428571	579160.0	236748.0	399451.714286	174346.222222	251338.000000	245938.00	109657.75	160093.000000	154715.714286	56360.000000	92681.0	49731.000000
2020-06-22	2.279603e+06	1084312.25	304331.000000	587720.0	243276.6	416389.400000	179148.750000	254336.333333	246272.00	112306.00	160336.428571	158177.500000	57346.000000	96377.8	50092.600000
2020-06-23	2.299650e+06	1106470.00	305289.000000	592280.0	246963.0	425282.000000	182562.666667	257447.000000	246504.00	115786.00	160750.000000	161005.000000	59060.666667	101590.0	50487.666667

144 rows × 15 columns

分析：作前15个国家的疫情随时间变动表

#plt.rcParams['font.sans-serif'] = ['SimHei']  
fig = plt.figure(figsize=(16,10))
plt.plot(world_confirmed)
plt.legend(world_confirmed.columns)
plt.title('前15个国家累计确诊人数',fontsize=20)
plt.xlabel('日期',fontsize=20)
plt.ylabel('人数/百万',fontsize=20);

分析：国外数据的补全较为成功，有一定的真实性。
分析：国外新冠确诊人数自3月末开始激增，排名前四的国家的疫情没有受到控制的趋势，国外疫情的趋势为确诊人数继续激增。

（六）结合你的分析结果，对个人和社会在抗击疫情方面有何建议？

从国内疫情折线图来看，从4月末开始疫情趋于平缓，相反，国外疫情从4月初开始爆发，至今没有看到平缓的趋势。
从境外输入案例来看，我们需要谨防境外输入病例，遏制国内新冠再次传播，一切都不能放松警惕。
对于个人，我们要避免到人员密集的区域，外出一定要戴好口罩，回家要做全面的消毒。
对于社会，在交通发达区域和人员密集区域，需要普及病毒检测和场所消毒措施，切断病毒的传播途径，维护我国疫情防控的成果。

附加分析(选做)

附加分析，所使用的库不限，比如可以使用seaborn、pyecharts等库。

限于个人能力，没有做。

你可能感兴趣的:(Python数据分析,数据分析,Python,数据分析,NumPy,中文,指南,pandas,python,Matplotlib,可视化)

打造高质量Python代码：使用Black、Ruff和Mypy进行格式化与Lint llzwxh888 python 数据库服务器
#打造高质量Python代码：使用Black、Ruff和Mypy进行格式化与Lint在软件开发过程中，确保代码的风格、可读性和正确性是每位开发者面临的重要任务。借助于现代工具，我们可以自动化许多重复性的检查任务，从而提高代码质量和开发效率。在这篇文章中，我们将探讨如何使用Black、Ruff和Mypy为Python代码进行格式化和Lint。##引言面对不断增长的代码库，维护代码风格和质量可以变得非
提高代码质量：使用Python Lint工具black、ruff和mypy ndAbsAfaqwdav python 服务器开发语言
提高代码质量：使用PythonLint工具black、ruff和mypy在软件开发过程中，代码质量是一个非常重要的环节。良好的代码格式和风格不仅使代码更易于阅读和维护，还能减少潜在的错误和问题。本文将介绍如何使用Python的三个流行工具：black，ruff，和mypy，帮助开发者提升代码质量。引言在这篇文章中，我们将探讨如何有效使用black，ruff，和mypy来提高Python代码的质量。
低代码革命：用Node-RED可视化编程实现工业级物联网系统威哥说编程低代码物联网
随着物联网（IoT）技术的迅速发展，越来越多的企业开始寻求高效、低成本的解决方案来实现设备连接、数据采集和自动化控制。传统的编程方式通常需要深入的技术背景和长时间的开发周期，这对于许多企业来说无疑增加了技术门槛和成本。因此，低代码平台逐渐成为物联网开发的热门趋势，尤其是在快速部署和原型开发上表现出了巨大的优势。Node-RED，一个基于浏览器的可视化编程工具，正是这种低代码革命的代表之一。通过拖拽
如何将.sql文件导入数据库 chengliang666 MySQL 工具方法数据库 sql mysql 导入sql
1.进入本地数据库打开命令提示符行输入以下命令进入本地数据库mysql-uroot-p2.创建数据库新建一个新数据库用来导入.sql数据CREATEDATABASE数据库名;//创建数据库showdatabases;//显示目前有的数据库3.导入.sql文件在导入.sql文件之前，设置一下编码模式，防止出现中文乱码的情况（第一次导入就出现了中文乱码，所以中添加一步防止出现乱码情况）。use数据库名
初探FastAPI：从Flask到FastAPI的入门指南 WqxEditor fastapi flask python
FastAPI和Flask是两个非常流行的PythonWeb框架，它们都提供了强大的功能和易用性，但在某些方面有所不同。本文将介绍FastAPI的基本概念和用法，并通过比较Flask和FastAPI的相似之处来帮助你更好地理解FastAPI。什么是FastAPI？FastAPI是一个现代化的PythonWeb框架，它旨在提供高性能、易用性和可靠性。它基于Python3.7+的类型提示和异步编程特性
[全面掌握Python代码格式化与静态检查：使用Black, Ruff, 和 Mypy] ahdfwcevnhrtds python 服务器 linux
全面掌握Python代码格式化与静态检查：使用Black,Ruff,和Mypy引言在Python开发中，代码的可读性和一致性是至关重要的。为了确保代码达到高标准的格式化和静态检查，Black、Ruff和Mypy成为了开发者们的得力辅助手段。本篇文章将为您介绍如何使用这些工具来提升代码质量，并通过一个完整的示例演示其使用方法。主要内容1.Black：自动格式化工具Black是一个“无争议”的Pyth
Ruff：Python圈的最快代码分析工具！ BbflNim python macos 前端
随着后端开发的不断发展，代码分析工具成为了开发者们必备的利器之一。在Python圈中，Ruff已经崭露头角，成为了性能最快的代码分析工具。本文将介绍Ruff的特点以及如何使用它来优化Python代码。Ruff是一个基于Python的代码分析工具，它专注于提供快速而准确的代码分析和性能优化。Ruff的设计目标是通过静态分析和动态追踪相结合的方式，帮助开发者发现代码中的瓶颈，并提供针对性的优化建议。下
Flask与FastAPI对比选择最佳Python Web框架的指南一键难忘 python flask fastapi Flask
Flask与FastAPI对比选择最佳PythonWeb框架的指南在现代的Web开发中，Python的Web框架为开发者提供了多种选择，其中Flask和FastAPI是目前最流行的两个框架。Flask因其简洁、灵活和轻量而广受欢迎，而FastAPI凭借其高性能和异步支持，逐渐成为了越来越多开发者的首选。在这篇文章中，我们将深入比较Flask与FastAPI，分析它们的特点、优势和适用场景，并帮助你
Python - pyautogui库模拟鼠标和键盘执行GUI任务 Ethel L 自动化测试 python
安装库：pipinstallpyautogui导入库：importpyautogui获取屏幕尺寸：s_width,s_height=pyautogui.size()获取鼠标当前位置：x,y=pyautogui.position()移动鼠标到指定位置（可以先使用用上一个函数调试获取当前位置参数再使用）：pyautogui.moveTo(x,y)#x,y是屏幕上的坐标鼠标点击：pyautogui.cl
python的ruff简单使用 golemon. Python python 开发语言
Ruff是一个用Rust编写的高性能Python静态分析工具和代码格式化工具。它旨在提供快速的代码检查和格式化功能，同时支持丰富的配置选项和与现有工具的兼容性。ruff是用rust实现的pythonLinter&Formatter。安装：condainstall-cconda-forgeruff#pippipinstallruff它可以作为代码检查工具和代码格式化工具使用运行代码检查ruffche
【问题】升级指定conda虚拟环境的python到指定版本 Jackilina_Stone 【EH】报错处理人工智能 python linux 问题
1背景当前conda环境的名字为python38，进入环境python38命令如下：condaactivatepython382升级python到3.10版本condainstallpython=3.103查看python版本
python字典从头到尾_从头到尾开发并销售python API weixin_26750481 python 人工智能
python字典从头到尾IrecentlyreadablogpostaboutsettingupyourownAPIandsellingit.我最近阅读了一篇有关设置和销售自己的API的博客文章。Iwasquiteinspiredandwantedtotestifitworks.Injust5daysIwasabletocreateanAPIfromstarttoend.SoIthoughtIsh
python实例化类的存储内存地址_【JVM之内存与垃圾回收篇】对象实例化内存布局与访问定位... 学姐吖
对象实例化内存布局与访问定位从各自具体的内存分配上来讲new的对象放在堆中对象所属的类型信息是放在方法区的方法当中的局部变量放在栈空间这new的对象怎么把三块粘合到一起就是这章的内容了对象实例化面试题美团：对象在JVM中是怎么存储的？对象头信息里面有哪些东西？蚂蚁金服：二面Java对象头有什么？从对象创建的方式和步骤开始说对象创建方式new：最常见的方式，单例类中调用getInstance的静态类
使用 Grafana 和 Prometheus展现消息队列性能优人ovo grafana prometheus
引言上篇文章通过JMX提取Kafka数据，本篇文章将通过JDBC存储Kafka性能数据存储于数据库，并通过Grafana和Prometheus进行展示，实现开发中常用的可视化监控1.环境准备Kafka：运行中的Kafka集群，确保可以通过JMX访问其性能指标。KafkaExporter：用于将Kafka的JMX指标暴露给Prometheus。Prometheus：负责收集和存储KafkaExpor
虚拟环境的python升降级办法 @@wo python 开发语言
首先先进入自己建的虚拟环境中1.将python=3.12版本降级为3.7版本condainstall-ypython=3.72.升级办法condaupdatepython3.查看当前python版本办法python--version4.新建虚拟环境办法condacreate-npyupmaskpython==3.8pyupmask可换为自己想建的环境名,版本可变5.进入虚拟环境condaactiv
自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测辞落山逻辑回归
1.引言在这篇博客中，我们将使用PaddlePaddle框架实现一个逻辑回归模型，利用NumPy自定义数据集进行训练，并保存模型。最后，我们将演示如何加载保存的模型并进行预测。2.环境设置首先，确保已安装PaddlePaddle和NumPy：pipinstallpaddlepaddlenumpy3.数据集准备我们使用NumPy自定义一个简单的二分类数据集：importnumpyasnp#生成简单数
自定义数据集，使用朴素贝叶斯对其进行分类〖是♂我〗 python numpy 开发语言
代码：#导入必要的库importnumpyasnpimportmatplotlib.pyplotasplt#定义类1的数据点，每个数据点是二维的坐标class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5],[1.5,0.9],[0.9,1.2],[1.1,1.7],[1.4,1.1]])#定义类2的数据点，每个数据点是二维的坐标class2_poi
自动生成关于软件程序开发的100个文件并可提供下载入口唐城 postgresql 数据库人工智能电脑机器人
创建一个包含100个关于软件程序开发的文件并提供下载入口是一个庞大的任务，因为这需要编写大量的代码、文档和示例。不过，我可以提供一个大致的框架和指导，帮助你生成这些文件，并说明如何设置下载入口。文件生成思路编程语言文件：每种主流编程语言（如Python、Java、C++、JavaScript等）的HelloWorld程序。数据结构示例（链表、树、图等）。算法实现（排序、搜索等）。项目模板：Web项
Databricks 开源 LLM，训练只需三个小时唐城 AI-毕业设计全套 spring log4j postgresql 数据库 java
大数据分析公司DatabricksInc近日也加入了生成式AI领域的竞争之中，发布了一个名为Dolly的开源大型语言模型，将模型命名为Dolly是为了向第一只克隆羊多莉致敬。像ChatGPT和Bard这样的生成式AI，它们使用的数据通常来自于在成千上万不同网站，使用的数据量十分惊人，而且想要使用这些数据训练AI还需要数以千计的强大GPU在背后提供支持。Databricks希望通过开源Dolly及其
python中import库出现路径问题邻家的狗2 python
运行prepro_vocab.py文件，由于需要导入common文件夹下的chem.py中的类，出现找不到模块的问题。解决方法common文件夹和prepro_vocab.py的父目录同级，如果将prepro_vocab.py的父目录的父目录的路径加入到环境变量中，就可以导入common模块了。importsyssys.path.append(os.path.dirname(os.path.dir
Python第三阶段学习 Django day08 MetalTrader Tude-Py django python
《DjangoWeb框架教学笔记》目录文章目录《DjangoWeb框架教学笔记》目录文件上传Django中的用户认证(使用Django认证系统)auth基本模型操作:auth扩展字段电子邮件发送项目部署uWSGI网关接口配置(ubuntu18.04配置)nginx及反向代理配置nginx配置静态文件路径404/500界面邮件告警文件上传文件上传必须为POST提交方式表单中文件上传时必须有带有enc
第 11 课 Python 多线程嵌入式老牛 Python入门开发语言 python
1.进程与线程进程就是程序执行的载体，我们打开的每个软件、游戏，执行的每一个Python脚本都是启动一个进程。线程是进程中执行运算的最小单位，是进程中的一个实体，是被系统独立调度和分派的基本单位。例如车间的生产是一个进程，那每个流水线就是它的一个线程。线程自己不拥有系统资源，只拥有一点在运行中必不可少的资源，但它可与同属一个进程的其它线程共享进程所拥有的全部资源。一个线程可以创建和撤消另一个线程，
自定义数据集使用scikit-learn中svm的包实现svm分类 Z211613347 python
importnumpyasnpimportmatplotlib.pyplotasplt#定义数据class1_points=np.array([[1.9,1.2],[1.5,2.1],[1.9,0.5],[1.5,0.9],[0.9,1.2],[1.1,1.7],[1.4,1.1]])class2_points=np.array([[3.2,3.2],[3.7,2.9],[3.2,2.6],[1.
如何在QGIS中安装Python第三方库朗道十戒 QGIS python 开发语言
目录1.在QGIS安装目录下，找到Windows批处理文件OSGeo4W。2.双击运行该批处理文件，然后使用pipinstall命令安装相应的第三方库。3.在QGISPythonConsole控制平台就可以运行anacondajupyternotebook的脚本了。1.在QGIS安装目录下，找到Windows批处理文件OSGeo4W。2.双击运行该批处理文件，然后使用pipinstall命令安装相
R语言环境下载和RStudio安装教程 CyberXZ r语言开发语言 R语言
R语言环境下载和RStudio安装教程R语言是一种广泛应用于统计计算和数据分析的编程语言。它提供了丰富的统计和图形功能，被广泛用于数据科学、机器学习和数据可视化等领域。本教程将向您介绍如何下载和安装R语言环境以及RStudio集成开发环境。步骤1：下载R语言环境首先，您需要下载R语言环境。请按照以下步骤进行操作：在您的Web浏览器中打开R官方网站（https://www.r-project.org
自动驾驶系列—深度剖析自动驾驶芯片SoC架构：选型指南与应用实战学步_技术自动驾驶自动驾驶架构人工智能 SoC 芯片
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
【Python无敌】在 QGIS 中使用 Python 唐城 AI-毕业设计全套唐城江湖风雨-Java 唐城奇妙之旅-GIS python linux 开发语言
QGIS中有Python的运行环境，可以很好地执行各种任务。这里的问题是如何在Jupyter中调用QGIS的功能。首先可以肯定的是涉及到GUI的一些任务是无法在Jupyter中访问的，这样可以用的功能主要是地处理工具。按如下方式进行了尝试。原想使用gdal:hillshade，但是始终无法成功（这个运行失败需要重启内核）。后来参考【清华大学对应镜像】QGIS+Conda+jupyter玩转Pyth
自定义数据集使用pytorch框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测 Z211613347 机器学习深度学习人工智能
importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataset,DataLoaderimporttorchvision.transformsastransformsimportpandasaspdimportnumpyasnpclassCustomDataset(Dataset):def_
唠唠 RDS 那些事 ——RDS 服务部署 SimminonGarcia 运维
RDS服务部署主题：[RDS服务简介](#RDS服务简介)系统要求部署RDS服务简介RDS（RemoteDesktopService），中文称为“远程桌面服务”，即之前的TerminalService。RDS服务包括以下的核心组件：RDCB——RemoteDesktopConnectionBroker，远程桌面连接代理。RDWA——RemoteDesktopWebAccess，远程桌面Web访问。
史上最全Python程序结构！！！色厉胆薄李富贵儿 python
1顺序结构1.1顺序结构含义顾名思义，在Python中，顺序结构就是指按照代码的顺序依次执行每个语句或操作的程序结构。顺序结构中的代码按照它们在源代码中出现的顺序依次执行，没有条件或循环来改变执行顺序。1.2顺序结构代码讲解1.2.1傻瓜式代码a=10print(f"此时a的值为：{a}")a=20print(f"此时a的值为：{a}")a=30print(f"此时a的值为：{a}")a=40pr
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1