【Coggle 】糖尿病遗传风险检测挑战赛

文章目录

  • 活动背景
  • 一、赛题介绍
  • 二、打卡任务
    • 任务1:报名比赛
      • 步骤1:报名比赛
      • 步骤2:下载比赛数据(点击比赛页面的赛题数据)
      • 步骤3:解压比赛数据,并使用pandas进行读取;
      • 步骤4:查看训练集和测试集字段类型,并将数据读取代码写到博客;


活动背景

Coggle 组织了一次竞赛训练营活动,希望能够帮助大家入门数据竞赛。糖尿病遗传风险检测挑战赛为其中的一个挑战项目,如下为本次参赛的打卡内容。


一、赛题介绍

在这次比赛中,您需要通过训练数据集构建糖尿病遗传风险预测模型,然后预测出测试数据集中个体是否患有糖尿病,和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。对于测试数据集当中的个体,您必须预测其是否患有糖尿病(患有糖尿病:1,未患有糖尿病:0),预测值只能是整数1或者0。

训练集(比赛训练集.csv)一共有5070条数据,用于构建您的预测模型(您可能需要先进行数据分析)。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识(最后一列),您也可以通过特征工程技术构建新的特征。

测试集(比赛测试集.csv)一共有1000条数据,用于验证预测模型的性能。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度。

二、打卡任务

任务1:报名比赛

步骤1:报名比赛

报名地址:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-zmt05
【Coggle 】糖尿病遗传风险检测挑战赛_第1张图片

步骤2:下载比赛数据(点击比赛页面的赛题数据)

在这里插入图片描述

步骤3:解压比赛数据,并使用pandas进行读取;

步骤4:查看训练集和测试集字段类型,并将数据读取代码写到博客;

import pandas as pd

train_df = pd.read_csv('./糖尿病遗传风险预测挑战赛公开数据/比赛训练集.csv', encoding='gbk')
test_df = pd.read_csv('./糖尿病遗传风险预测挑战赛公开数据/比赛测试集.csv', encoding='gbk')

print(train_df.shape, test_df.shape)
print(train_df.dtypes, test_df.dtypes)

数据结果:
【Coggle 】糖尿病遗传风险检测挑战赛_第2张图片

你可能感兴趣的:(大数据,人工智能,算法,nlp)