阿里天池美年健康AI大赛:初赛数据解读

大赛主题:双高疾病风险预测

2018年阿里天池AI大赛医疗健康赛道赛题是和美年大健康合作推出的双高疾病风险预测题目。很荣幸,我们组建的算法团队metacode2018也参与了今年的角逐。今天,大赛初赛正式开始,初赛数据已经可以从官方网站下载。本文简要解读一下初赛数据的基本情况。

初赛一阶段:4月10日12:00-5月5日22:00。系统每天进行2次评测和排名,评测开始时间为当天12:00和22:00,按照评测指标从高到低进行排序,定时更新排行榜;排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

要完成的任务是,根据输入的体检客户各项体检结果(已脱敏),预测五项指标:收缩压,舒张压,甘油三酯,高密度脂蛋白胆固醇和低密度脂蛋白胆固醇。

从阿里天池官网上可以下载到初赛一阶段的4份文件,包括:
1、两份原始输入文件:meinian_round1_data_part1_20180408.txt 和 meinian_round1_data_part2_20180408.txt (网站下载的是zip包,下载后需要解压缩)
字符集编码:utf-8(注意存在BOM头U+FEFF)
字段,三个:vid(体检客户脱敏ID),table_id(体检项目脱敏id),field_results(体检项目结果)
分隔符:$
含有header:是
数据量
meinian_round1_data_part1_20180408.txt:4430919行,290MB
meinian_round1_data_part1_20180408.txt:3673451行,153MB
示例数据

vid$table_id$field_results
002d1e4859fafd9ded2a2e1e7c839b62$2403$72.9
002d1e4859fafd9ded2a2e1e7c839b62$2404$166.5
002d1e4859fafd9ded2a2e1e7c839b62$2405$26.30
002d1e4859fafd9ded2a2e1e7c839b62$2420$79
002d1e4859fafd9ded2a2e1e7c839b62$0702$无
002d1e4859fafd9ded2a2e1e7c839b62$0703$右上后牙龋坏, 部分残根
002d1e4859fafd9ded2a2e1e7c839b62$0705$牙结石
002d1e4859fafd9ded2a2e1e7c839b62$0706$未见明显异常
002d1e4859fafd9ded2a2e1e7c839b62$0707$未见明显异常
002d1e4859fafd9ded2a2e1e7c839b62$0709$龋齿:右上后牙龋坏,部分残根牙周:牙结石
002d1e4859fafd9ded2a2e1e7c839b62$0715$无
002d1e4859fafd9ded2a2e1e7c839b62$0726$未见明显异常
002d1e4859fafd9ded2a2e1e7c839b62$0730$无
002d1e4859fafd9ded2a2e1e7c839b62$0731$未见明显异常
002d1e4859fafd9ded2a2e1e7c839b62$0732$未见明显异常
002d1e4859fafd9ded2a2e1e7c839b62$3601$骨质疏松(-2.9)
002d1e4859fafd9ded2a2e1e7c839b62$0102$肝、胆、胰、脾、左肾、右肾未发现明显异常
002d1e4859fafd9ded2a2e1e7c839b62$0113$肝脏形态大小正常,轮廓规整,实质回声均匀,肝内管道结构清晰。门静脉不宽。
002d1e4859fafd9ded2a2e1e7c839b62$0114$胆囊形态大小正常,壁光滑,内未见明显异常光团。胆总管不扩张。
......

2、用于训练的结果数据集:meinian_round1_train_20180408.csv
字符集编码:gbk
字段,六个:vid(体检客户脱敏ID),收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白
分隔符:,
含有header:是
数据量
meinian_round1_train_20180408.csv:38200行,2MB
示例数据

vid,收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白
002d1e4859fafd9ded2a2e1e7c839b62,165,100,2.08,1.29,3.24
92dd479df5e30ab6a0a1cf85ac53efc3,141,97,2.64,1.36,4.75
6bb59d517c4c70f8f50844d24fbd0355,120,80,1.37,1.25,2.66
0ebb42adae512906f7e1135da734ea63,100,70,1.27,2.21,1.73
ebe7811e919109c42c092abbd98b4ca6,110,80,0.8,1.87,2.21
c2690ddf171a3de695dced12fd93c1d1,110,80,1.4,1.74,2.09
d7017fda4e550b14008c730854b89b95,130,78,2.5,1.22,4.53
d6b92248a262a491d6250dcebc103e71,111,71,3.36,1.08,2.88
345742c522a571dbb0483474242d3484,94,64,0.62,1.34,1.67
......

3、用于提交结果的测试数据集:[new] meinian_round1_test_a_20180409.csv
字符集编码:gbk
字段,六个:vid(体检客户脱敏ID),收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白【注意:除了vid,其他待预测字段都留空了,是需要参赛者把自己模型预测值填进去的】
分隔符:,
含有header:是
数据量
[new] meinian_round1_test_a_20180409.csv:9539行,372KB
示例数据

vid,收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白
c643a744e2e94f3ff354d920958bd37b,,,,,
a81c1fc0cfa8c0fbc450d2ffeae14b9f,,,,,
2af0da8f6f0b8d642f88b3a8194408b6,,,,,
2bd361a4c5b9b0d5aab62c101daa4ee6,,,,,
16107e514ed0f51c4e39b1a0fa5a04f9,,,,,
3e44d83fe827ec930c56921efd7d91c9,,,,,
5252eedd84ae34f02e3f64d0e4c7cd25,,,,,
92522ca0ceacd8ac8cb745c9a2b05d85,,,,,
ceffa608d98e2a863726d5514ed48b62,,,,,
......

评价函数:
首先,对于5项预测结果的第j项指标,通过如下计算公式计算误差:


单项误差

其中m为总人数,yi'为选手预测的第i个人的指标j的数值,yi为第i个人的指标j的实际检测值。
然后,汇总5项误差得到平均误差:


平均误差

加油吧!

QY 2018-04-10

你可能感兴趣的:(阿里天池美年健康AI大赛:初赛数据解读)