随着全国脱贫攻坚战的全面胜利, “三农”工作重心已转移到全面推进乡村振兴上来。2021年作为巩固脱贫攻坚成果同乡村振兴有效衔接的第一年,自治区有关部门正在积极谋划与开展乡村振兴战略相关工作。然而,在实施乡村振兴战略、提升农业数字经济化的同时,乡村农业生产环境仍存在着一些问题,例如:农作物病虫害的分类和识别采用离线诊断方式时效性较低的问题;数据驱动的农业种植模式未能广泛应用和推广导致产量与市场需求脱节等问题。本赛道将聚焦农民生产中存在的问题,通过本次比赛得出的优秀成果,为乡村振兴提供参考对策。
第一部分:数据预处理方法:
1.数据集加载,结果显示:
经过对赛题的研读、探讨和各因素对南瓜价格相关性的讨论,决定将2016-2017年数据集里各县市的南瓜数据集合成一个数据集,选取数据集中相关性强的包装、品种、产地、温度、降水量以及平均价格保留作为南瓜价格相关性研究的训练数据集,以支持模型的搭建和训练。为神经网络处理方便,数据预处理采用独热编码(One-Hot Encoding)处理,把数据特征编码化。经过独热编码后,就变成了二元特征;并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的,解决了分类器不好处理属性数据的问题;在一定程度上起到扩充特征的作用。
预处理数据集(局部)
数据集标签
产地与价格相关性散点图
包装方式与价格相关性散点图
品种与价格相关性散点图
温度与价格相关性散点图
降水量与价格相关性散点图
由图知,各因素对于价格的影响都较大,因此在训练预测模型BP神经网络时都会把以上的因素囊括在其中作为因素分子构建输入矩阵。
热力图的对角线是本身,相关性为1;从图中可知因素对价格的影响相关性强弱。
各因素与价格相关性的热力图
我们删除了原数据集中相关性较差以及数据大量缺失数据;把缺失部分数据的数据行也做了删除处理,因为这些缺失数据较少,对整体的训练结果没有多大影响。离群值数据与实际正常的市场相背离,所以剔除处理。
第二部分:模型构建与分析:
该神经网络具有很强的非线性映射能力和柔性多变的网络结构;具有自学习和自适应能力:具有将学习成果应用与新知识的能力;具有一定的容错能力。基于这些优点使得BP神经网络非常适合非线性化的回归问题;对于本题具有很多影响因素、数据集数据较多的非线性化问题,使用BP神经网络贴合题目要求。
BP神经网络在理论、性能上都已是较成熟的。其突出的优缺点如下:
优点:
1.具有很强的非线性映射能力和柔性多变的网络结构。可以以任意精度逼近任何非线性连续函数;这一特性适合于求解内部机制复杂的问题。
2.具有自学习和自适应能力:BP神经网络在训练过程中能够通过学习自动提取输入、输出数据间的“隐藏规律”,并自适应的将学习内容记忆到网络的权值中,提高训练的精度。
3.具有将学习成果应用与新知识的能力;即在设计模式分类器时,既要考虑网络在保证对所需分类对象进行正确的分类,还要关心网络在经过训练后,能否对未见的模式或有噪声污染的模式,进行正确的分类。
4.具有一定的容错能力;在BP神经网络中局部或是部分神经元收到破坏后对全局的训练结果不会造成很大的影响,也就是BP神经网络在收到局部损伤时还是可以正常工作,得出训练结果。
缺点:
1.具有局部极小化的问题;在数学的角度上,传统的BP神经网络会陷入局部极值,从而导致网络训练失败。
2.具有收敛速度慢的问题;由于BP神经网络算法本质上为梯度下降法,它所要优化的目标函数是非常复杂的,使得收敛速度较慢。
3.网络结构选择不一的问题;BP神经网络结构的选择至今尚无一种统一而完整的理论指导,一般只能由经验选定。
4.预测能力和训练能力的矛盾问题:BP神经网络有一个训练预测极限,当达到此极限时,随着训练能力的提高,预测能力反而会下降,也即出现所谓“过拟合”现象。
第三部分:数据结果分析:
测试集价格预测曲线
验证集价格预测曲线
训练误差曲线
根据BP神经网络模型训练及预测结果可以看出,预测模型在训练次数达到1200次后预测误差可以降到15.2左右,预测结果误差较大,但是预测模型的预测结果稳定,后期再经过优化和训练可以进一步降低预测误差,形成一个更好的BP神经网络预测模型。
第四部分:作品价值与创新性:
1.作品价值:通过大数据技术、BP神经网络的帮助下,训练好的预测模型可以在一定时间内预测未来南瓜的价格,为农民买卖南瓜提供参考;我们还做了通用泛化的设计,可以在此模型的基础上继续训练学习或者改造,使得模型可以运用到实际的应用中,或者是进行其他实际问题的预测,有一定的泛用性。我们验证了BP神经网络在预测南瓜价格与其他因素的相关性时,发现BP网络存在一些局限性。BP神经网络需要大量的基础数据支持才能使得预测结果相对准确。训练期间还需要注意不能让BP神经网络出现“过拟合”现象。
2.创新性:
(1)数据预处理采用独热编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。经过独热编码后,就变成了二元特征;并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的,解决了分类器不好处理属性数据的问题;在一定程度上起到扩充特征的作用。
(2)该模型采用的是BP神经网络。该神经网络具有很强的非线性映射能力和柔性多变的网络结构;具有自学习和自适应能力:具有将学习成果应用与新知识的能力;具有一定的容错能力。基于这些优点使得BP神经网络非常适合非线性化的回归问题;虽然复杂的BP神经网络收敛速度会比较慢,但是得益于灵活的网络结构,在遇到线性比较好的问题,只需要较少的隐藏层和神经元就可以做到很好的训练结果,大大节约了训练时间,提高效率。对于本题具有很多影响因素、数据集数据较多的非线性化问题,使用BP神经网络贴合题目要求。