2022数维杯国际赛C题思路

数维杯C题思路

本人美赛一等奖、Mathorcup数学竞赛一等奖、五一杯数学竞赛二等奖等

第一次写,不喜勿喷

下面让我们来看看本次数维杯竞赛的C题吧

问题 C:如何利用大脑结构特征和认知行为特征诊断阿尔茨海默病

Alzheimer’s disease (AD) is a progressive neurodegenerative disease with an insidious onset. It is characterized clinically by a full spectrum of dementia, including memory impairment, aphasia, dysfluency, agnosia, impairment of visuospatial skills,executive dysfunction, and personality and behavioral changes, the cause of which isstill unknown. It is characterized by a progressive decline in the ability to perform activities of daily living, with various neuropsychiatric symptoms and behavioral disturbances. The disease is usually progressive in the elderly, with progressive loss of independent living skills and death from complications 10 to 20 years after the onset of the disease.

阿尔茨海默病(AD)是一种进行性神经退行性疾病,起病隐匿。其临床特征
为一系列痴呆,包括记忆障碍、失语症、流畅性障碍、失认症、视觉空间技能
障碍、执行功能障碍以及人格和行为改变,其原因尚不清楚。以日常生活活动
能力进行性下降为特征,伴有各种神经精神症状和行为障碍。这种疾病通常在
老年人中进行性发展,在发病 10 至 20 年后逐渐丧失独立生活能力并因并发症
死亡。

The preclinical stage of Alzheimer’s disease, also known as mild cognitive
impairment (MCI), is a transitional state between normal and severe. Due to the limited cognition of the disease by patients and their families, 67% of patients were diagnosed as moderate to severe and had missed the best intervention stage. Therefore, early and accurate diagnosis of Alzheimer’s disease and mild cognitive impairment is of great significance.

阿尔茨海默病的临床前阶段,也称为轻度认知障碍(MCI),是正常和严重之
间的过渡状态。由于患者及家属对疾病的认知有限,67%的患者被诊断为中重
度,已错过最佳干预阶段。因此,早期准确诊断阿尔茨海默病和轻度认知障碍
具有重要意义。

The attached data contain specific information characteristics of 4850 cognitive normal elderly (CN), 1416 patients with subjective memory complaint (SMC), 2968 patients with early mild cognitive impairment (EMCI), 5236 patients with late mild cognitive impairment (LMCI) and 1738 patients with Alzheimer’s disease (AD) collected at different time points (one time point is a quantity). Please use the brain structural characteristics and cognitive behavioral characteristics of the different categories of people provided in the Appendix to construct an Alzheimer’s disease identification model and design an intelligent diagnostic method to accurately
diagnose Alzheimer’s disease.

所附数据包含在不同时间点(一个时间点为一个量)收集的 4850 名认知正常
老年人(CN)、1416 名主观记忆主诉患者(SMC)、2968 名早期轻度认知障碍患者(EMCI)、5236 名晚期轻度认知障碍患者(LMCI)和 1738 名阿尔茨海默病患者(AD)的具体信息特征。请利用附录中提供的不同类别人群的大脑结构特征和认知行为特征,构建阿尔茨海默病识别模型,设计智能诊断方法,准确诊断阿尔茨海默病。

(1) Preprocess the characteristic indicators of the attached data to investigate the correlation between data characteristics and the diagnosis of Alzheimer’s disease.

(1) 对所附数据的特征指标进行预处理,考察数据特征与阿尔茨海默病诊断的相关性。

(2) Use the attached structural brain features and cognitive behavioral features to design an intelligent diagnosis of Alzheimer’s disease.

(2) 利用附带的结构脑特征和认知行为特征,设计阿尔茨海默病的智能诊断。

(3) First, cluster CN, MCI and AD into three major classes. Then, for the three subclasses contained in MCI (SMC, EMCI, and LMCI), the clustering was continued to be refined into three subclasses.

(3) 首先,将 CN、MCI 和 AD 分成三大类。然后,对于 MCI 中包含的三个子类 (SMC、EMCI 和 LMCI ),聚类继续细化为三个子类。

(4) The same sample in the annex contains features collected at different time points, please analyze them in relation to the time points to uncover patterns in the evolution of different categories of diseases over time.

(4) 附件中的相同样本包含在不同时间点收集的特征,请分析它们与时间点的关系,以揭示不同类别疾病随时间演变的模式。

(5) Please consult the relevant literature to describe the early intervention and diagnostic criteria for the five categories of CN, SMC, EMCI, LMCI, and AD.
(5) 请参考相关文献来描述 CN、SMC、EMCI、LMCI 和 AD 五种类型的早期干预和诊断标准。

第一题

题目既然说了对数据进行预处理,那预处理在本题就是蛮重要的一个部分。我们不能简单的对缺失值删除或者填充0啊这样就结束了。

对于缺失值的处理主要是分为两种情况,如果这一行或者这一列缺失的太多了,我们可以考虑直接把这一行或这一列直接删除或者填0,而如果缺失的不是很多,我们应该通过其他方法去填充,可以是平均值、众数、或者其他插值方法。(欢迎补充讨论)

对于异常值呢,我们常见的方法利用正态分布(这个有点普通啦),箱线图,聚类(K-means DBSCAN)都可以。

考察数据特征与阿尔兹海默症诊断的相关性

  • 对于定量数据,还是建议用斯皮尔曼相关系数去分析,不建议使用皮尔逊,皮尔逊相关系数还要两列数据符合正态分布,太麻烦了那么多属性都要做,我觉得大概率也是过不了的。
  • 对于定性数据。(1) 对定性数据利用虚拟变量进行转化,就把那些不同的定性量转成0,1,2,具体数值怎么设大家也可以去思考一下。然后转成定量数据后可以利用定量数据的相关性分析。(2)定性数据的卡方检验,但卡方检验只能找出他们之间是否具有相关性,不知道是否符合题意。对定性数据的相关性分析还有Cramer’V相关系数(就是克莱姆相关系数),或者kendall tau-b相关系数:主要用于有序的分类变量数据,大家可以自行搜索一下。

第二题

1.利用第一问的结果,删除那些与阿尔兹海默症不相关的数据特征

2.切记!要去考虑一下剩下的特征之间是否具有相关性,维度太高了,对数据进行降维,可以用PCA(主成分分分析),岭回归,MDS等进行降维

3.之后再对这些数据与阿尔兹海默症用机器学习吧,我的建议是多个机器学习方法进行比较,或者用Adaboost、boosting等集成算法。

持续更新…如果需要的人多的话我考虑写写代码吧…

你可能感兴趣的:(python)