国赛2022年最新思路汇总(信息速递)

思路和程序
问题一
第一个:皮尔逊、方差分析等,注意:是两两之间关系。

第二个:分析文物样品表面有无风化化学成分含量的统计规律。 思路:可视化一下分布。

第三个:预测。其实这个数据比较少,我想挨个预测会不会好点,先把表单一和二合并,然后就有文物的四个特征作为输入,先预测sio2,然后把sio2的预测结果变成一致自变量,预测第一个化学成分…每一个都分别训练预测。

当然,你觉得麻烦的话,就直接一次性预测,但是这样输入变量比输出变量还少了。。结果糟糕就手动修改好一点(hh)。至于用什么算法,这个是个回归问题哈,不是分类就行了。

问题二
第一个:分类规律 。还是可视化分布,然后文字描述一个自然段就好。

第二个:亚分类。选一个好的聚类方法,得到能聚成多少累,就是多少个类别吧,选一个分类预测算法预测一下。后面说了,要保存聚类结果等,合理性就是描述你的方法更适合这个问题嘛。

第三个:敏感性。我觉得就是微调原来数据,调节后重新训练模型,看模型准确率变化程度吧。

问题三
基于问题二的类别来预测。换一个分类预测算法嘛,跟问题二一样就更没意思了。然后又敏感性分析,我不认为是对数据的扰动。

问题四
分类讨论分析。。。
 

需要的软件技术支持

Matlab(个人建议不要版本太老吧,2019+,我是安装的2019版本)
Python(官网下载吧,比较文档的版本建议3.8,当然即使你是最新版本也没关系,普通用户感受不到Python版本变化)
Jupyter(首先安装Anaconda,这个软件上面带有Jupyter,我自己如果要用python写代码的话,基本都是在这个上面写)
SPSS(这个嘛,也不是很必要,但是也有那么必要,我认为这个软件,队伍的人都应该掌握)

C题思路想法:
问题 1 对这些玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析;结合玻璃的类型,分析文物样品表面有无风化化学成分含量的统计规律,并根据风化点检测数据,预测其风化前的化学成分含量。

我们先拿到文中附件1中所给的数据进行处理分析,来做一个数据清洗工作,对题目所给数据进行简单的清洗检验,由于题目已经说明某些数据存在合理缺失项,因此可不对缺失值进行检测和处理。根据题目要求:将成分比例累加和介于85%~105%之间的数据视为有效数据,根据分析编号15和编号17的总成分小于85%因此在接下来的计算中不考虑编号15和编号17两组数据。并根据玻璃的类型,来得出文物是否被风化,根据题目的文是需要我们统计规律,我们可以对统计的数据做一个可视化的处理,这里推荐大家使用tebleua,课程比较简单,百度上面就可以直接搜索得到。

其次,我们还可以通过相关性分析,指标选择为风化相关性高低,来进一步确定风化化学成分。

第一小间:对这些玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析

根据表单1中的数据可以得到:文物编号、 纹饰、类型、颜色、表面风化四个变量均为定类变量因此,对定类变量之间的相关性(差异性)进行分析采用卡方检验。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小:若两个值完全相等时,卡方值就为0,表明理论值完全符合。

卡方检验分析的结果显示,基于表面风化和纹饰,显著性P值为0.056*,水平上不呈现显著性,接受原假设,因此对于表面风化和纹饰数据不存在显著性差异。

卡方检验分析的结果显示,基于表面风化和类型,显著性P值为0.020**.水平上呈现显著性,拒绝原假设,因此对于表面风化和类型数据存在显著性差异。

卡方检验分析的结果显示,基于表面风化和颜色,显著性P值为0.507,水平上不呈现显著性,接受原假设,因此对于表面风化和颜色数据不存在显著性差异。

我们根据卡方检验结果,来得到是否存在显著性差异。

第二小问:结合玻璃的类型,分析文物样品表面有无凤化化学成分含量的统计规律

由表单中的数据可知,玻璃类型为高钾类与铅钡类,因此我们需要固定一个变量,分析其余变量的变化规律(纹饰、颜色、风化情况)

第三小问:根据风化点检测数据,预测其风化前的化学成分含量

第三问就是个可视化分析,后续的思路持续更新
 

你可能感兴趣的:(python数学建模算法,机器学习,聚类,算法)