原作者: Dr Shravani Basu
链接: https://towardsdatascience.com/critical-factors-contributing-to-the-spread-of-fall-armyworms-from-a-data-science-perspective-a1fec38cff32
研究目标
尽管秋粘虫(Spodoptera frugiperda; FAW)在美洲热带和亚热带地区已有数十年的历史,但在它开始传播到非洲和世界其他地区之前,还没有对其进行过深入的研究。因此,从这种害虫的爆发中获得的信息非常有限,这种害虫在各大洲迅速变得不可识别。因此,减轻虫害造成的巨大损失的唯一办法是详细了解虫害,并制定多管齐下的作物保护和虫害防治战略。
这项研究试图通过结合三个不同的数据集,提供有关秋粘虫潜在爆发的补充信息,阐明有利于秋粘虫传播的条件。
由于FAO使用的数据收集方法的局限性,组合数据集不允许建立预测模型。因此,这项研究的重点是提取推动秋粘虫在非洲蔓延的特征,在非洲收集了大部分数据。
尽管基于非洲数据集,我们进行分析的方式可以将调查结果扩展到全球任何秋粘虫事件。
秋粘虫:全球威胁
秋粘虫幼虫期是一种以350多种植物为食的害虫,对玉米、水稻、高粱等重要经济作物、棉花、甘蔗、花生等经济作物、苹果、桔子等果树、蔬菜等造成广泛危害。然而,玉米仍然是首选寄主。因为毛虫吃了太多的植物,它们对作物的生存和产量是非常有害的。
根据粮农组织的数据,非洲每年损失的玉米多达1800万吨,足以养活数千万以玉米为主要作物的人,在非洲大陆造成的经济损失高达46亿美元。此外,针对具体国家的研究表明,秋粘虫接触量与杀虫剂使用强度呈正相关。控制秋粘虫污染的几项措施已经存在,但并没有显著减少损失。
秋粘虫爆发于2016年在非洲被发现,此后已蔓延至亚洲,包括中东和大洋洲。这种昆虫是一种快速繁殖的昆虫,每年以几代的速度繁殖,有着多种多样的食物,它们可以在恶劣的条件下存活下来,它们可以迁徙到不同的地方(跨大陆),或者在条件更有利的时候躲藏起来重新生长。这种蛾子每晚能飞100公里。雌蛾产卵前可迁徙500公里。然而,这些昆虫对低温没有抵抗力。它们不能在低于0℃的温度下迁徙和繁殖。因此,全球变暖导致的暖冬为秋粘虫大规模繁殖创造了良好条件。
粮农组织的《食物链危机预警公报》(2020年1月至3月,第34号)详细说明了秋粘虫造成的全球感染和国别损害的程度。本文简要介绍了最危险国家的局势和所报告的破坏规模。
在非洲:
安哥拉-据报道,秋粘虫在2017年损失了超过19000公顷的玉米、谷子和高粱作物,造成约180万美元的损失。
埃塞俄比亚-秋粘虫攻击四季种植的玉米:主雨季、短雨季和灌溉玉米。在全国,有458个玉米种植区受到秋粘虫的影响。
马拉维-第一次报告秋粘虫的存在是在2016/17主要雨季(11月至3月)。这一害虫已对全国玉米、淡季灌溉玉米(4月至10月)和小麦等其他作物造成严重损害。政府宣布,在2017/18准备种植季节(11月至3月),由于该虫害,处于灾害状态。
乌干达-已确认所有121个地区(100%的领土)都存在这种害虫。
南苏丹-秋粘虫的存在已被证实在全国各地(在该国所有前10个州)。田间观察和农民报告表明,当作物处于水分胁迫下时,秋粘虫污染严重。
斯威士兰-秋粘虫的存在是在2016/17赛季首次报道的。这一害虫对全国高粱、谷子和玉米造成严重损害,一直持续到2017/18赛季。
埃及(北非)-自2019年5月以来,秋粘虫已在埃及南部玉米地正式上报。秋粘虫得以穿越撒哈拉沙漠的天然屏障。因此,北非国家处于危险之中。
苏丹-自2017年以来,据报道,秋粘虫从苏丹出发,尼罗河流域可能被视为埃及的可能进口路线。埃及和苏丹的气候允许许多寄主植物继续种植,这增加了害虫传播和破坏的可能性。
坦桑尼亚、赞比亚和津巴布韦-第一次报告秋粘虫的存在是在2016/17年度,在2017/18年度生产季节(11月至3月),该害虫继续对玉米造成损害。
在亚洲:
孟加拉国-秋粘虫于2018年8月首次被发现。从那时起,它已经蔓延到全国的几个地区。
柬埔寨-截至2019年6月11日,柬埔寨共摧毁了11142公顷玉米作物,其中包括白林省2544公顷、马德望省3033公顷、班迭棉吉省4715公顷和特邦库姆省850公顷。
缅甸农业、畜牧业和灌溉部称,秋粘虫自2019年1月的第一周起就开始入侵缅甸的玉米田。秋粘虫已在伊洛瓦底江地区得到确认,并于同年短时间内蔓延至9个州/地区。伊洛瓦底江约有4046公顷受到影响。
印尼-秋粘虫于2019年3月首次在西苏门答腊被发现。在四个月内,这种害虫已经蔓延到苏门答腊、爪哇和加里曼丹的一些地区的12个省。
菲律宾-到2019年6月,位于Negros Oriental的Mabinay地方政府宣布秋粘虫袭击了该山区城镇32个barangays中的28个。
斯里兰卡-秋粘虫主要在Anuradhapura、Monaragala和Ampara地区感染了玉米,但在该国几乎所有地区的农场都发现了玉米斑。秋粘虫在上述三个区的玉米总面积分别为61010公顷和34856公顷。此外,据报道,秋粘虫已蔓延到水稻、西红柿、谷子、绿豆等农作物和甘蔗等一些牧草品种。据报道,斯里兰卡8.2万公顷耕地中,有43037公顷被秋粘虫染病。该国估计的农作物总损失在10%到25%之间。
也门(西亚)-据报道,秋粘虫的引进和存在自2018年以来,增加了引进阿曼和沙特阿拉伯等邻国的风险。
中国-不包括在粮农组织的报告中,但根据新闻报道,在2020年3月5日,中国政府在记者招待会上承认秋粘虫在2018年首次入侵中国。南部和西南部省份受影响最大。中国当局发现,2019年11月至1月,中国南部和西南部的秋粘虫数量正在增加。受灾面积4万公顷,是去年同期的90倍。由于这种害虫已经在老挝附近的80000公顷土地上肆虐,当局预测中国可能会出现更糟糕的情况。
根据中国农业农村部发布的指导方针,秋粘虫北移将比去年提前一个月。一旦北移,黄河、淮河流域50%的玉米田将受到威胁。
自2019年6月以来,秋粘虫在台湾也有报道。据台湾动植物卫生检疫局(BAPHIQ)统计,截至2019年7月10日,台湾已确认有199宗秋粘虫目击事件,超过50公顷玉米田受到影响。
印度-根据国家农业昆虫资源局(NBAIR)于2018年7月进行的一项调查,并非来自粮农组织的报告,而是独立核实了秋粘虫首次在卡纳塔克邦(印度南部)的Chikkaballapur地区的农田报告。这种害虫已经摧毁了卡纳塔克邦70%以上的农作物,目前已进一步蔓延到印度南部、西部、北部和东北部。玉米种植面积约930万公顷,年总产量接近2800万吨。
澳大利亚-粮农组织的报告中没有提到一汽在澳大利亚北部地区和西部北部的多个地区被发现,很快就可能威胁到昆士兰广湾地区的农作物。渔农部表示,秋粘虫自今年2月在澳大利亚被发现以来,仅在玉米、高粱和大豆作物中发现。秋粘虫如果成立,有可能成为澳大利亚北部的棉花害虫。
数据集
我们为这项研究合并了三个互补的、公开的数据集。
- 本研究使用的核心数据集是根据联合国粮食及农业组织(粮农组织)发起的全球防治秋粘虫行动(秋粘虫)方案收集的数据,该方案对主要在非洲国家发生的秋粘虫爆发病例进行了分类。秋粘虫监测预警系统(FAMEWS)由一个分发给农民进行数据采集的移动应用程序和一个绘制现状的全球平台组成。这些数据大多由农民自己直接在FAMEWS应用程序中收集,使用两种检测技术:使用信息素诱捕器收集昆虫(秋粘虫指南注释3)或实地侦察(秋季粘虫侦察)。本研究使用的数据集版本涵盖了2018年2月27日至2019年9月30日期间登记的案例。选定的数据集由39013个案例组成,每个案例测量了44个变量。不幸的是,粮农组织的这一数据集不再在其网站上免费提供。
- 结合秋粘虫爆发的数据集,我们使用了饥荒预警系统网络(FEWS-NET)土地数据同化系统(FLDAS)中VIC模型的重新分析的天气数据。从2001年1月至今,数据的分辨率为0.25度,覆盖整个非洲大陆(在本研究中,我们使用了2018年2月至2019年10月之间的可用数据)。时间分辨率是每天的。有关数据集的更多信息,请访问:FLDAS: Project Goals。该模型共提取了21个变量,包括降水量、温度和风速,并在:FLDAS模型数据描述 | LDAS中进行了描述。
- 最后使用的数据集是来自协调世界土壤数据库(HWSD)的土壤数据。这是一个30弧秒的栅格数据库,有15000多个不同的土壤制图单元,结合了全球土壤信息的现有区域和国家更新(SOTER、ESD、中国土壤图、WISE)。数据可通过粮农组织门户网站:统一世界土壤数据库v1.2 | 粮农组织土壤门户网站获取。数据集包括58个变量,描述了土壤单元的组成和土壤参数的特征(有机碳、pH值、蓄水量、土壤深度、土壤和粘土部分的阳离子交换能力、总交换性养分、石灰和石膏含量、钠交换率、盐度、质地等级和粒度测定)。有关变量的更多详细信息,请访问:http://www.fao.org/3/aq361e/aq361e.pdf.
这三个数据集基于FAMEWS数据中提供的作物田地理坐标进行合并。
方法
A. 筛选
在FAMEWS数据集中使用了两种不同的检测方法:侦察和信息素陷阱。不同的检验方法,作为独立的和组合的,可能会产生不可预见的偏差。因此,我们将研究局限于使用童子军检测到的样本,因为它代表了最大的样本(69%的病例,即26901例-见图5)。
如图6所示,从法马威的检测样本来看,秋粘虫的阳性和阴性检出率的相对分布来看,阳性检出率占样本的85.9%。数据集中对阳性检测的强烈偏见实际上表明,通过移动应用程序收集的数据是在秋粘虫实际爆发之后开始的。如果数据是从某一特定地区的系统调查中收集的(在调查期间,无论秋粘虫的发生率如何,该地区所有农民都提供了数据),我们预计数据集中的检测率将要低得多。
这一观察结果实际上通过随时间的侦察检查分布得到了证实,如图7所示:缺乏时间一致性是反应模式的症状,而不是系统的数据收集。
聚焦于图8所示的非洲特定地区,支持类似的结论:检查次数的分布因地点而异(对于图8-Left中红色的选定地区,2019年的检查次数接近于零)。
如所示,基于侦察检查的数据集高度偏向于正面检测。这很可能是由于疫情爆发后数据收集的反应性(农民只有在农田受到感染后才使用该应用程序)。这样一个不平衡的数据集不允许我们在给定的日期为给定的字段建立秋粘虫爆发的预测模型。为了实现这一目标,有必要进行更系统和无偏见的数据收集,以提供暴发病例的现实表现。
因此,我们决定集中研究秋粘虫在玉米作物中传播的驱动因素和加剧因素。在实际应用中,我们使用机器学习建模来提取一组具有预测能力的特征来识别秋粘虫的存在。我们希望确保这些特征的预测重要性可以通过地点和时间推断出来,以便我们从非洲过去的疫情中获得的见解对未来的其他国家(如印度)是有效的。
B. 构建模型, 预处理 & 验证策略
我们决定训练一个极端梯度增强(XGBoost)优化预测,作为一个目标变量,在一个给定的检查点,由秋粘虫感染植物的百分比。如前一节所述,预测有害生物的传播(即,是否会影响一块田地?)由于检测样本的偏差,不可能。因此,我们选择将重点放在感染水平的预测上(即,知道该领域受到感染,预计会受到影响的部分是什么?)
图9显示了每次侦察检查的潜在感染程度范围,表明二元目标变量(阳性,如检测到的,而阴性,如未检测到的)根本不允许完全了解问题。我们还将感染率为0%和100%的病例从培训集中删除,因为它们似乎更多地与缺乏来自调查的信息有关,因为这些信息是由农民输入的。
在进行任何模型训练之前,我们将对数据集进行适当的预处理:
- 将数据集局限于非洲大陆和玉米作物(因为数据集中也有其他作物的信息)-将总样本减少到16705例;
- 删除重复行和常量列;
- 从FLDAS、FAMEWS和HWDS数据集中选择领域驱动的特征(只关注相关信息,删除不相关或重复的特征,例如数据库id);
- 某些字段的标准化(例如“cropFieldSize”,因为根据应用程序的用户使用不同的测量单位);
- 手动特征工程,以一种更为相关的方式结合特征进行研究;
- 反映周平均值的天气数据的集合.
鉴于FAMEWS数据集的性质,以及所使用的空间和时间特征(土壤和天气数据)的混合,我们必须实施特定的验证策略,以确保最重要的特征能够通过时间和位置进行适当的概括。我们的验证策略基于时间分离,2018年的数据用于培训,2019年的数据用于验证。然而,为了消除任何空间效应,我们改进了以下基本策略:
对于2019年的验证集,我们将3个特定区域定义为经度间隔:A(-16°,-1°),B(26°,33°)和C(35.5°,46°)。这些领域经过精心设计,以最大限度地增加培训和验证实例的数量。
然后,我们在培训/验证中分三次检查数据集,每次在2018数据集上培训模型,不包括验证区域内的数据(例如,A区域外的所有2018数据),并在验证区域内使用2019数据集验证(例如,A区域内的所有2019数据)。
通过这样的验证策略,我们从全局网格搜索开始优化最重要的超参数,然后再通过更局部的网格搜索进行微调。利用上述三种方法,在对模型的超参数进行微调的同时,可以计算出模型在验证集之间的平均绝对误差(MAE)。MAE越低,模型通过位置和时间进行概括的能力就越高。
C. 特征选择
一旦对模型进行了训练,我们就可以为每个特征计算当模型的决策树之一使用该特征在数据集中进行分割时所获得的XGBoost目标函数的增益。然后,我们将XGBoost模型中一个特性的重要性定义为所有这些增益的总和。
然而,特征重要性可以通过隐藏的相关性,或者掩盖关于位置或时间的信息来人为地提高。为了确保所选的特征能够正确概括,对于每个特征,我们再次对模型进行微调和训练,使其不包含特征。然后,我们将这个新模型的MAE(不包括特性)与包含它的前一个模型进行比较。如果在不使用该特性时MAE显著增加(超过0.005),我们将丢弃该特性。在这种情况下,重新计算重要特征集,将丢弃的特征保留在预测集之外。
已放弃的功能示例:
- 一年一次:去除MAE后提高0.7934。
- 第1阶段:一旦移除,MAE中0.5037的改进。
- cropFieldSize:移除后,MAE的性能提高了0.0863。
从FLDAS、HWSD和FAMEWS数据集的原始组合变量集中选择的14个特征的最终集合,对于一汽感染具有最高的预测能力,是:
分析和结果
为了可视化所选特征在区分高度和轻度受侵染作物方面的能力,我们使用一个二元目标构建了一个决策树,如果作物中的植物百分比高于平均值(约为侵染的25%),则该二元目标被定义为真,否则为假,如图10所示。
决策树自上而下读取如下:
- 每个单元格表示根据所述条件(例如在顶部单元格 ‘Psurf_f_tavg_mean<96627.656’)将样本分成两部分;如果条件满足(True),则根据左侧的下一级单元格检查相应的拆分样本,如果不满足(False)则检查右侧的下一级单元格;
- 在每个细胞中,阴性(在我们的情况下,感染较少)和阳性(在我们的情况下,感染较多)的部分在括号中表示(例如在顶部单元格的‘value=[0.513,0.487]’,因此,51.3%的阴性和48.7%的阳性);
- 每个单元格所代表的完整样本的比例也得到了很好的指示(例如在顶部单元格中“samples=100%”);
- 阳性细胞(感染越多)的比例越高,细胞就越蓝,阴性细胞(感染越少)就越红。
为了更好地理解如何读取树,让我们来看两个最极端的情况:
1 - 第一种情况对应于蓝色最深的细胞,占本研究所用样本集的5.7%(在非洲对玉米作物进行侦察检查),其中85.4%的每一个田块(在这一子集中)受以下条件的影响(‘value=[0.146,0.854]’):
- 低表面气压(‘Psurf_f_tavg_mean≤96627.656’);
- 粘土的低重量分数(虽然不是极端的)('‘10.5
- 有机物含量高('‘T_OC>0.955’');
- 无雨(‘Rainf_f_tavg_mean≤0’)。
2 - 第二种情况对应于最深红色的细胞,占本研究所用样本集的5.5%(在非洲玉米作物的侦察检查),其中只有17.1%的每一个田(在这个子集中)受到了感染(‘value=[0.829,0.171]’),受以下条件的青睐:
- 中间表面气压('‘96627.656
- 高湿度率(“‘Qair_f_tavg_mean>0.015’”);
- 大田施肥(‘cropFertilizer_no≤0.5’);
- 以及较老的作物(‘age>54.5’)
尽管决策树提供了关于所选特征之间重要性和交互作用的有趣见解,但现在让我们尝试解释为什么这些所选特征中的一些具有较高的预测能力。我们专注于一些精选的分析,而不是针对一个详尽的研究。再次,我们的目标是证明所使用的方法能够让我们识别出一汽蔓延背后最重要的驱动因素。
土壤密度的影响
在这里,我们需要强调的是,其中一些功能只有在与其他功能结合时才具有真正的预测能力。例如,如图11所示,粘土‘T_-Clay’的独立部分与我们的目标具有相当弱的相关性。然而,图11中的第二个图显示,当与表面压力“Psurf_f_tavg_”结合时,它具有更强的影响。这个事实已经可以用决策树来推断了。
一种初步的解释是,在较高的地表气压下,土壤密度更大,而不考虑其成分。在低气压下,土壤密度越小,则粘土的质地对密度的影响越大。由于土壤密度较低(因此在低气压和较低的粘土含量下),一旦蛹羽化,一汽成虫就更容易从土壤中出来,增加了感染的风险。
如图12所示,可以对有机物含量的分数提出类似的解释:有机物含量分数越高,土壤密度越低,因此感染风险越高。
注意,在图11和图12中,我们使用了三阶回归。在粘土或有机物含量重量分数极端情况下,测量中的低统计数据妨碍了此类测量的任何解释,并且可能不够可靠。
作物生长发育阶段对作物健康的影响
秋粘虫毛毛虫主要以玉米叶片和轮虫的幼嫩部分为食,这说明幼龄作物感染风险更大,而较老作物感染风险迅速降低,如图13所示。感染高峰在30-80天左右。玉米在种植后130-135天成熟,这解释了超过这个年龄的统计数据(和感染病例)的迅速减少,因为这些病例可能主要与数据收集的错误有关(因为年龄是根据农民直接收集的数据计算的)。
在图14中,我们研究了土壤温度对侵染率的影响(空气温度和土壤辐射温度与土壤温度密切相关,因此我们只关注这个变量)。在20-25℃(293-298K)附近有一个明显的峰值,在17℃(290K)以下和27℃(300K)以上有明显的下降。这些温度与玉米根系有效生长的理想土壤温度相对应,这意味着这一变量与作物的内在健康有关(更健康的作物显然对应更高的侵染率)。
天气条件的影响
当显示风对虫害的影响时,如图15所示,在强风(高达2米/秒)的情况下,虫害开始明显增加,但当风越来越强时,虫害减少(高达4米/秒)。一种可能的解释是,有些风会提高秋粘虫蛾子在农田不同区域传播和恢复轮回的机会,但强风会阻止秋粘虫毛虫留在叶子上继续觅食。
图16显示了虫害与空气比湿度和降雨量之间的负相关关系。这些结果表明,尽管湿度和降雨量有利于植物的生长,但过量的雨水会冲走叶中的秋粘虫毛毛虫,事实上降低了虫害率。这是一个有争议的结果,因为文献中的一些研究倾向于指出相反的结果。
灌溉影响
如图16所示,降雨似乎正在减缓虫害。我们进一步调查浇水的影响,看是否确实降雨对秋粘虫有害。
在图17左边,土壤湿度显示出与感染率类似的负相关,如空气湿度和降雨量。然而,当观察不同类型的浇水的效果时,在图17的中央,很明显,虽然灌溉似乎有利于虫害,但雨水浇水确实降低了虫害率,证实了上述结果。如图17右图所示,降雨时土壤湿度平均高于灌溉时的土壤湿度,这意味着降雨也有利于植物的生长(事实上,土壤湿度也取决于土壤成分,即我们数据集中可用水量“in fact soil moisture also depends of soil composition, information provided by the Available Water Capacity ‘AWC_CLASS’ in our dataset.”提供的信息)
从这一分析中可以对灌溉进行一个明确的观察,即任何模拟降雨的灌溉系统(如喷灌机)都会重现降雨(减少感染率)所引起的影响。
值得注意的是,我们的分析没有证据表明,土壤水分缺乏(水分胁迫)会加剧秋粘虫的侵扰,正如上述粮农组织报告中南苏丹的报告所述。为了理解这种差异,需要更多的数据和更深入的调查。
结论和建议
所开展的工作,除了提供一些切实可行的见解(例如,灌溉方面的见解)外,还表明了采取基于数据科学的方法,在限制性调查范围之外,利用各种信息来源,支持发展综合性和注重成果的农业项目的重要性。
- 我们强调了通过组合不同但高度互补的数据集(来自农民“FAMEWS”、天气“FLDAS”和土壤数据“HWSD”)的整体方法的重要性,从而得出一致和可靠的图像。正如在研究中所看到的,所有重要的特征都是从三个数据集中提取出来的,并且大多数的洞察力都是基于来自不同数据源的特征的组合(从决策树中可以看到)。
- 整个工作基于开放存取数据的可用性。我们要感谢构建这些数据集(数据收集、数据分析、建模和仿真)的团队所做的工作。我们要再次强调自由分享这些数据的重要性,并对粮农组织最近从其网站上删除对FAMEWS数据集的访问感到难过(根据最新情况,到2019年底,仍然可以以csv/excel格式下载)。
- 我们已经确定了一组重要特征(14个特征),这些特征可以用来更好地了解秋粘虫传播背后的驱动因素。尽管我们建议尽可能多地聚合数据,但这些功能可以用作未来数据收集策略的指导原则。这里进行的分析的大多数结果当然是以先前的研究和常识为基础的,但这种分析提供了可量化的信息,可用于建立预测模型和确定限制有害生物传播的可行措施。
- 数据采集是任何研究的一个关键要素,法默斯所做的出色工作值得在此强调。为农民提供一个应用程序,让他们了解自己农田的状况,是防止秋粘虫等害虫蔓延的主要武器。然而,由于农民输入的“非正式”密钥,数据集呈现出自身的局限性,导致一定的准确性不足,并产生无法控制的偏差。FAMEWS采取的收集策略意味着对爆发后测量的一个重要偏差,因为农民主要在感染发生后使用app,这就阻止了建立秋粘虫蔓延预测模型的可能性。
我们建议采取系统的调查战略,直接在农场一级收集信息,而不受几个季节虫害的影响,并将农民的投入与独立的天气和土壤信息结合起来。调查的设计需要有预测性和规范性的模型作为目标,在此基础上可以采取措施尽可能地消除偏见。这样的项目需要数据科学家和机器学习专家的参与。
PS:我是黑胡桃实验室社区的一名成员,最近经常在看一些老外做的有趣的人工智能项目,如果有兴趣或疑问可以在评论区留言或私信与我交流μ