CSDN 叶庭云:https://yetingyun.blog.csdn.net/
竞赛题目:AMP®-Parkinson’s Disease Progression Prediction
竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction
竞赛目标:本次比赛的目标是预测 MDS-UPDR 评分,该评分用于测量帕金森患者的病情进展。运动障碍学会赞助的统一帕金森病评分量表修订版 (MDS-UPDRS) 是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型以帕金森患者和正常同龄对照组中的蛋白质和肽水平随时间变化的数据为基础进行训练。您的工作可能有助于提供关于哪些分子在帕金森疾病进展过程中发生变化的重要突破性信息。
竞赛背景:
提交的作品将根据预测值和实际值之间的 SMAPE 进行评估。我们定义当实际值和预测值均为 0 时,SMAPE = 0。对于每次采集蛋白质/肽样本的病人就需要估算他们在该次访问时的 UPDRS 评分,并预测他们在可能的 6、12 和 24 个月后的任何访问中的评分。最终没有实现的访问的预测将被忽略。
您必须使用提供的 Python 时间序列 API 提交到这个竞赛,该 API 可以确保模型不向前窥视时间。要使用 API,请在 Kaggle Notebooks 中遵循此模板:
import amp_pd_peptide
env = amp_pd_peptide.make_env() # initialize the environment
iter_test = env.iter_test() # an iterator which loops over the test files
for (test, test_peptides, test_proteins, sample_submission) in iter_test:
sample_prediction_df['rating'] = np.arange(len(sample_prediction)) # make your predictions here
env.predict(sample_prediction_df) # register your predictions
除非另有说明,所有截止日期均为当天 UTC 时间晚上 11:59。竞赛组织者保留更新比赛时间表的权利,如果他们认为有必要的话。
这是一场代码竞赛。竞赛作品必须通过 Notebooks 提交。为了使 “提交” 按钮在提交后处于活动状态,必须满足以下条件:
请参阅 Code Competition FAQ 以获取有关如何提交的更多信息。如果遇到提交错误,请查看代码调试文档。
本次竞赛的目标是利用蛋白质丰度数据预测帕金森病 (PD) 的病程。PD 涉及的完整蛋白质组仍然是一个开放的研究问题,任何具有预测价值的蛋白质都值得进一步研究。数据集的核心包括从数百名患者的脑脊液 (CSF) 样本中获得的质谱读数导出的蛋白质丰度值。每个病人在多年的时间内贡献了多个样本,同时还进行了 PD 严重程度的评估。
本次竞赛是一个时间序列的代码竞赛:您将收到测试集数据,并使用 Kaggle 的时间序列 API 进行预测。
train_peptides.csv 是蛋白质质谱数据在肽水平上的表现形式,肽是蛋白质的组成部分。
train_proteins.csv 是从肽水平数据聚合的蛋白质表达频率。
train_clinical_data.csv 是临床相关的数据。
supplemental_clinical_data.csv 是没有任何跟脑脊液样本相关的临床记录。该数据旨在提供关于帕金森病的典型进展的额外背景。与 train_clinical_data.csv 相同的列。
example_test_files/ 里的文件旨在说明 API 功能的数据,包括 API 提供的相同列(即没有 updrs 列)。
amp_pd_peptide/ 里的文件使 API 能够运行。预计 API 能够在不到五分钟的时间内提供所有数据(少于 1000 个额外病人),并保留少于 0.5 GB 的内存。这里提供了 API 提供的简短演示。
public_timeseries_testing_util.py 是一个可选文件,旨在使自定义离线 API 测试更容易运行。有关详细信息,请参阅脚本的 docstring。
竞赛题目:使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展
竞赛类型:数据挖掘、时间序列、回归预测
关键词:时间序列、帕金森进展预测、生物信息、数据分析、机器学习
赛题是一个典型的结构化数据预测赛题,拥有多张表,且是以患者作为样本,多了解一些相关的专业知识更好。
在解决题目时,需要考虑: