如何建立风险分析模型

看了一段时间文献,决定重新写一下这篇文章。
Notes: 下文主要针对传染病研究中的风险预测

传染病风险预测可分为三类,第一类是基于统计学建模的预测方法,它主要包括三个方面的内容:广义线性模型、时间序列模型(ARIMA模型)以及灰色系统理论。广义线性模型是应用最为广泛的模型,常用的有泊松回归[6,7,8]、线性回归[9,10,11]、逻辑回归[12]等。例如在泊松回归的应用中,Zhang[6]等人针对各宏观因素对艾滋病传播影响的地域差异性未得到充分研究的问题,通过地理加权泊松回归模型分析了2012年全国31个省、直辖市和自治区的宏观因素包括经济水平、交通、社会保障及卫生水平对艾滋病发病数影响的空间变化特征。Xu[7]等人利用泊松回归模型进行气象因素与传染病发病率的相关性分析,评价地区气象因素(气温、湿度、日照)对呼吸道传染病的影响。Chen[8]等人同样是利用泊松分布探究气象因素对传染病的影响,但他们分别对各病种与6个气象因素在单因素分析中有统计学意义的因素进行多因素分析,实验设计更加合理。而在线性回归模型的应用中,Wang[9]等人利用改进的线性回归模型,也就是局部加权线性回归对肺结核的传播进行建模分析,它可以对一些数据欠拟合现象进行一种线性回归分析。也有研究者运用线性回归模型对出血热、乙型肝炎等疾病进行了成功的预测[10,11]。

除了广义线性回归模型,基于ARIMA模型的预测方法在传染病预测中也占有重要的地位。ARIMA模型由Box和Jenkins于1976年提出,是时间序列分析中被广泛应用的分析模型,也是B-J方法中重要的时间序列分析预测模型[13],应用最为广泛的是SARIMA和ARIMAX。SARIMA模型是一种针对季节性变化时间序列分析的建模方法,广泛应用于传染病的预测。Fu[14]等人通过时间序列分析建立SARIMA模型并预测苏州市2019年肺结核的发病情况。值得一提的是,Briët[15]等人基于SARIMA模型添加了协变量,例如邻近地区的传染病病例数或降雨,以改善SARIMA模型预测的能力。除了SARIMA模型,还有很多研究使用了ARIMAX模型对传染病发病情况进行预测[16-19]。

基于灰色系统理论建模是另一种属于统计学建模的预测方法,它对生成数列建模而不是原始数据。许多研究者将灰色系统理论应用到了传染病传播的预测中[20-24],但是当数据序列离散比较大时,提升模型的精度就成了一个难题。基于统计学模型的预测方法大多是基于历史发病例拟合曲线,进而预测,并没有考虑到传染病传播的各个因素例如空间因素与免疫因素,其预测的准确度也实为一般。

第二类为基于动力学模型的预测方法。传染病的动力学模型就是建立一个数学模型来表示传染病的传播过程,利用动力学分析来研究传染病的传播趋势。1926年,Kermack和McKendrick构建了最经典的SIR仓室模型[25],之后又提出了SIS模型和阈值理论[26],之后的传染病动力学模型都是由此发展而来。SIR模型的基本思想就是将总人口分成三个舱室,S代表易感者,I代表感染者,R代表移出者,再根据总人口数不变和列出的微分方程求得接触感染率和单位时间内的痊愈概率。但对于有些传染病,患者痊愈后仍然有感染的可能,因此就有了SIS模型。SIR和SIS模型是最经典的传染病动力学模型,之后又出现了它们的变体,例如具有时滞[27-29]的、具有年龄结构的[30,31]传染病模型。这些传染病模型都有一些不合理的假设,例如所有个体感染和被感染的能力、治愈能力相同,而这在真实的情况中是不可能的。由于复杂网络可以很好的体现种群的异质性,许多研究者开始研究复杂网络上的传染病模型[32-35],包括小世界网络模型和无标度网络模型。复杂网络上的传播行为与规则网络上的传播行为有着很大不同,传染病总是优先感染度大的节点,也就是与他人联系最多的个体。基于动力学模型的预测方法也存在着一定的缺陷,传染病的传播方式千变万化,此类方法未能考虑到影响传播的各种因素,例如空间因素。人口的迁徙也是影响疾病传播的因素之一,但这类方法却忽略了,同样无法有效挖掘传染病爆发的社会因素。

第三类方法为基于机器学习的方法,主要包括人工神经网络、马尔科夫方法等。Chen[36]等人构建了一个7层的神经网络,基于每个月份时间为输入层,各个月份的发病率为输出层,构建神经网络预测模型,但这似乎没有利用到神经网络可以进行多因素分析的优点。Ghosh[37]等人应用人工神经网络模型对西尼罗病的危险因素进行了研究,假设了可能与疾病相关的因素例如环境、社会经济、建筑环境和灭蚊措施等等,并分成4个隐含层然后构建人工神经网络,通过模型拟合指标Q2/R2,最后确认5个输入变量,较好的分析了影响西尼罗病流形的危险因素。虽然人工神经网络比传统的线性模型更适合处理非线性问题,但其黑箱过程导致模型的解释性不够,因此如何解释模型是人工神经网络应用的一个关键问题[38]。除了人工神经网络,Deng[39]等通过对辽宁省1981-1993年百日咳的发病率数据进行状态分组,建立马尔科夫链疾病预测模型,采用区间预测方法,也就是按照区间来划分系统的状态,因此预测的结果也是区间预测,如果划分的状态越多,预测的准确度也会相应提高。机器学习方法虽然也考虑了影响疾病的多个因素例如天气、环境、经济等,但实际上没有深入挖掘导致传染病爆发的成因,不能有效的应用于输入型为主的情况。

[6] 张亚慧, 张辉国, 胡锡健. 利用地理加权泊松回归模型分析宏观因素对艾滋病疫情的影响[J]. 中国艾滋病性病, 2016(10):817-821.

[7] 霍爱梅, 赵达生, 方立群, et al. 华北地区主要呼吸道传染病与气象条件的关系[J]. 中国医药导报, 2011(32):159-162+199.

[8] 陈纯, 郑红英, 张周斌, et al. 气象因素对广州市虫媒传染病发病影响研究[J]. 疾病监测, 2016(12):984-988.

[9] 王锐涵, 魏海平, 曹宇, et al. 数据驱动的肺结核传播过程的建模与分析[J]. 计算机应用, 2019(A01):198-201.

[10] 邰发道,王廷正,孙怀玉. 肾综合征出血热发生的逐步回归分析及测报研究[J].
中国媒介生物学及控制杂志,1998,9( 5) :241 - 245.

[11] 杨德志. 广义回归神经网络在乙肝发病数时间序列预测中的应用[J].
计算机应用与软件,2013,30( 4) : 217 - 219.

[12] Woodruff RE, Guest CS, Garner MG,
et al. Early warning of Ross River virus epidemics:combining surveillance data
on climate and mosquitoes[J]. Epidemiology,2006, 17(5):569-575.

[13] 徐国祥.统计预测和决策[M].上海:上海财经大学出版社, 1998.150-177.

[14] 傅颖,张晓龙,蒋骏,李云,王斐娴.SARIMA模型在苏州市肺结核发病预测中的应用[J/OL].中国热带医学:1-4[2020-03-02].http://kns.cnki.net/kcms/detail/46.1064.R.20200122.1212.002.html.

[15] Briët, Olivier J. T, Vounatsou P,
Gunawardena D M, et al. Models for short term malaria prediction in Sri
Lanka[J]. Malaria Journal, 2008, 7(1):76.

[16] Abbas S, Ilyas M. Assessing the
impact of EI Niño southern oscillation index and land surface temperature
fluctuations on dengue fever outbreaks using ARIMAX§-PARX§-NBARX§
models[J]. Arabian Journal of Geosciences, 2018, 11(24).

[17] 陈佳,谢娜,邓晟,张学良.新疆喀什百日咳与气象因素的多元时间序列分析[J].职业与健康,2018,34(13):1834-1839.

[18] 妥小青,张占林,龚政,叶勒丹·马汉,黄冰雪,田恬,阿比旦·艾尼瓦尔,陈珍,古丽斯亚·海力力,樊旭成,戴江红.基于ARIMAX模型的乌鲁木齐市流感样病例预测分析[J].中华疾病控制杂志,2018,22(06):590-593.

[19] Sudarat C, Charin M, et al. Modeling
seasonal leptospirosis transmission and its association with rainfall and
temperature in Thailand using time-series and ARIMAX analyses[J]. Asian Pacific
Journal of Tropical Medicine, 2012(07):39-46.

[20] 刘蜀坤,周亚林,梁洁,杨练,袁艳平.灰色系统模型在四川省法定传染病发病率趋势预测中的应用[J].寄生虫病与感染性疾病,2018,16(04):177-181.

[21] 周强,孙传武,毕俊.灰色系统GM(1,1)模型在徐州市乙型肝炎发病趋势预测中的应用[J].职业与健康,2016,32(24):3435-3437.

[22] 王文明,王华,胡文斌,田昌伟,薛黎坚,陈权.灰色系统GM(1,1)模型在手足口病发病预测中的应用[J].中国校医,2013,27(10):769-770.

[23] 江鸿,梅文华,崔俊宇,夏苏建,李杰,方小衡,许燕.应用灰色系统GM(1,1)模型预测广东省梅毒发病率[J].中国艾滋病性病,2012,18(10):687-688+710.

[24] 官金兰,陈芷棋,邵思铭,林晓佳,刘敏清,梁嘉琪,康军.广州市登革热传染病的灰色预测模型[J].佳木斯职业学院学报,2016(09):413.

[25] Kermack W O, McKendrick A G.
Contributions to the mathematical theroy of epidemics. I[J]. Proceedings of the
Royal Society of London, 1927, 115(772):700-721

[26] Kermack W O, McKendrick A G.
Contributions to the mathematical theory of epidemics. II. The problem of
endemicity[J]. Bulletin of Mathematical Biology, 1991, 53(1-2):57-87.

[27] 赵省丽,刘茂省.具有媒体饱和发生率的SIS时滞模型研究[J].河北工业科技,2019,36(03):164-169.

[28] 赵宁,孟新柱.一类具有时滞的随机SIS传染病模型[J].应用数学,2018,31(01):214-218.

[29] 童姗姗,仝云旭.具时滞阶段结构和非线性发生率的SIS模型[J].重庆工商大学学报(自然科学版),2016,33(02):1-4.

[30] 郭中凯,任秋艳,李建生.具有年龄结构的SIR传染病模型的最优接种和治疗策略[J].南京师大学报(自然科学版),2019,42(01):28-35.

[31] 苏蕊. 具有年龄结构的传染病SIR流行病模型的研究[J]. 数学的实践与认识, 2016, 41(06).

[32] 夏承遗,刘忠信,陈增强,袁著祉.复杂网络上的传播动力学及其新进展[J].智能系统学报,2009,4(05):392-397.

[33] 余雷,薛惠锋.基于复杂网络的传染病传播模型研究[J].陕西科技大学学报,2007(03):126-129.

[34] 王茜,薛亚奎.复杂网络上基于意识传播的传染病模型研究[J].中北大学学报(自然科学版),2018,39(03):247-254.

[35] 陈进良.基于小世界网络的甲型流感传播的研究[J].计算机时代,2010(05):30-32.

[36] 陈会枝, 孟伟伟, 贺付成. 人工神经网络与灰色理论模型在传染病中的应用 [J]. 中国实用神经疾病杂志,
2016(2):51-52,共2页.

[37] Ghosh D, Guha R. A Risk Factor
Analysis of West Nile Virus: Extraction of Relationships from a Neural-Network
Model[M]// Advances in Social Computing. 2010.

[38] 徐俊芳, 周晓农. 人工神经网络在传染病研究中的应用[J]. 中国寄生虫学与寄生虫病杂志, 2011(01):55-60.

[39] 邓甦,李晓毅.马尔科夫链在呼吸道传染病预测中的应用[J].中国卫生统计,2010,27(06):615-616.

你可能感兴趣的:(风险分析)