目录
一、项目背景
二、项目的数据集
1、数据集介绍
2、数据集链接
三、项目分析
四、项目步骤
1、安装Python和Scipy平台
(1)安装Anaconda
(2)检查已安装版本
2、导入数据
(1)导入程序库
(2)导入数据集
3、数据集准备
4、建立和评估模型
(1)logistic模型(The logistic model)
(2)指数模型(Exponential model)
5、数据可视化
6、残差分析
7、作出预测
当今世界正在与一个新的敌人作斗争,那就是新型冠状病毒(Covid-19)。
在本文中,将用Python展示感染增长的简单数学分析和两个模型,以更好地理解感染的演变。
意大利民防部门每天都会更新感染者的累积数据,这些数据在GitHub上作为开放数据公开。
https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-andamento-nazionale/dpc-covid19-ita-andamento-nazionale.csv。
1、目标是创建迄今为止受感染人数(即实际感染人数加上已感染人数)的时间序列模型。
2、这些模型具有参数,这些参数将通过曲线拟合进行估算。
3、将用Python来做。
具体安装的方法参照https://blog.csdn.net/wyatt007/article/details/80369755。
备注:要求安装的scikit-learn的版本为0.18或者以上。
# 检查已安装版本
# Python version
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
本地输出:
Python: 3.7.4 (default, Aug 9 2019, 18:34:13) [MSC v.1915 64 bit (AMD64)]
scipy: 1.3.1
numpy: 1.16.5
matplotlib: 3.1.1
pandas: 0.25.1
sklearn: 0.21.3
从CSV文件中加载数据。
导入所有将要用到的程序模块,函数和对象。
# 导入程序库
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
from sklearn.metrics import mean_squared_error
from scipy.optimize import curve_fit
from scipy.optimize import fsolve
import matplotlib.pyplot as plt
# 导入数据集
df = pd.read_csv("../Datasets/Covid-19.csv")
备注:首先保存数据集,然后把它放在工作路径中,使用了2月24日至3月7日的数据。
需要的列是’ totale_casi ',它包含到目前为止的累计感染人数。
需要将日期改为数字,将从一月一日起开始算。
# 3、数据集准备
df = df.loc[:, ['data', 'totale_casi']]
FMT = '%Y-%m-%dT%H:%M:%S'
date = df['data']
df['data'] = date.map(lambda x: (datetime.strptime(x, FMT) - datetime.strptime("2020-01-01T00:00:00", FMT)).days)
备注:注意时间格式。
分析要参加测试的两个模型,分别是逻辑函数(logistic function)和指数函数(exponential function)。
每个模型都有三个参数,这些参数将通过对历史数据进行曲线拟合计算来估计。
①模型介绍
logistic模型被广泛用于描述人口的增长。感染可以被描述为病原体数量的增长,因此使用logistic模型似乎是合理的。
这个公式在数据科学家中非常有名,因为它被用于逻辑回归分类器,并且是神经网络的一个激活函数。
logistic函数最一般的表达式为:
在这个公式中,有变量x(它是时间)和三个参数:a,b,c。
①a:感染速度。
②b:感染发生最多的一天。
③c:在感染结束时记录的感染者总数。
在高时间值时,被感染的人数越来越接近c值,也就是说感染已经结束的时间点。这个函数在b点也有一个拐点,也就是一阶导数开始下降的点(即感染开始减弱并下降的峰值)。
②定义模型
# 定义模型
def logistic_model(x, a, b, c):
return c / (1 + np.exp(-(x - b) / a))
③估计参数值
使用scipy库中的curve_fit函数从原始数据开始估计参数值和错误。
# 估计参数值
x = list(df.iloc[:, 0])
y = list(df.iloc[:, 1])
fit = curve_fit(logistic_model, x, y, p0=[2, 100, 20000])
a = 3.54
b = 68.00
c = 15968.38
参数值:
a: 3.54
b: 68.00
c: 15968.38
④计算标准误差
curve_fit函数也返回协方差矩阵,其对角值是参数的方差。取它们的平方根,计算出标准误差。
# 计算标准误差
errors = [np.sqrt(fit[1][i][i]) for i in [0, 1, 2]]
标准误差:
a的标准误差:0.24
b的标准误差:1.53
c的标准误差:4174.69
结论:预计感染人数在感染结束时为15968+/-4174;感染高峰预计在2020年3月9日左右;预期的感染结束日期可以计算为受感染者累计计数四舍五入约等于到最接近整数的c参数的那一天。
⑤计算方程的根
使用scipy库中的fsolve函数来计算出定义感染结束日的方程的根。
# 计算方程的根
sol = int(fsolve(lambda x: logistic_model(x, a, b, c) - int(c), b))
结论:预期的感染结束日期是2020年4月15日。
①模型介绍
logistic模型描述了未来将会停止的感染增长,而指数模型描述了不可阻挡的感染增长。例如,如果一个病人每天感染2个病人,1天后会有2个感染,2天后4个,3天后8个,等等。
最通用的指数函数是:
变量x是时间,仍然有参数a,b,c,但是它的意义不同于logistic函数参数。
②定义模型
执行与logistic增长相同的曲线拟合过程。
# 定义模型
def exponential_model(x, a, b, c):
return a * np.exp(b * (x - c))
③估计参数值和计算标准误差
使用scipy库中的curve_fit函数从原始数据开始估计参数值和错误。curve_fit函数也返回协方差矩阵,其对角值是参数的方差。取它们的平方根,计算出标准误差。
# 估计参数值和计算标准误差
exp_fit = curve_fit(exponential_model, x, y, p0=[1, 1, 1], maxfev=500000)
参数值和标准误差:
a: 0.0019 +/- 64.6796
b: 0.2278 +/- 0.0073
c: 0.50 +/- 144254.77
现在有了所有必要的数据来可视化结果。
# 5、数据可视化
pred_x = list(range(max(x), sol))
plt.rcParams['figure.figsize'] = [7, 7]
plt.rc('font', size=14)
# 原始数据
plt.scatter(x, y, label="Real data", color="red")
# 预测logistic模型曲线
plt.plot(x + pred_x, [logistic_model(i, fit[0][0], fit[0][1], fit[0][2]) for i in x + pred_x], label="Logistic model")
# 预测指数模型曲线
plt.plot(x + pred_x, [exponential_model(i, exp_fit[0][0], exp_fit[0][1], exp_fit[0][2]) for i in x + pred_x], label="Exponential model")
plt.legend()
plt.xlabel("Days since 1 January 2020")
plt.ylabel("Total number of infected people")
plt.ylim((min(y) * 0.9, c * 1.1))
plt.show()
这两条理论曲线似乎都很接近实验趋势。哪一个更好?看一下残差(residuals)。
残差是指各实验点与相应理论点的差值。通过分析两种模型的残差来验证最佳拟合曲线。在第一次近似中,理论和实验数据的均方误差越小,拟合越好。
# 6、残差分析
y_pred_logistic = [logistic_model(i, fit[0][0], fit[0][1], fit[0][2]) for i in x]
y_pred_exp = [exponential_model(i, exp_fit[0][0], exp_fit[0][1], exp_fit[0][2]) for i in x]
mean_squared_error(y, y_pred_logistic)
mean_squared_error(y, y_pred_exp)
Logistic模型MSE(均方误差):8254.07。
指数模型MSE:16219.82。
残差分析似乎指向逻辑模型。很可能是因为感染应该会在将来的某一天结束;即使每个人都会被感染,也会适当地发展出免疫防御措施以避免再次感染。只要病毒没有发生太多变异(例如,流感病毒),这就是正确的模型。
但是有些事情仍然让人担心。自感染开始以来,每天都在拟合logistic曲线,而且每天都有不同的参数值。感染的人数最终会增加,最大感染日通常是当天或第二天(与该参数的1天标准误差是一致的)。
尽管逻辑模型似乎是最合理的模型,但是曲线的形状可能会由于新的感染热点,政府约束感染的行动措施等外在影响而发生变化。因此,这个模型的预测只有在感染高峰期之后的几周内才会开始有用。