山东省第二届数据应用创新创业大赛-日照分赛场-公积金贷款逾期预测
比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26
竞赛背景
维持和发展信用关系,是保护社会经济秩序的重要前提。随着金融市场的发展,信贷业务日益增多,金融机构迫切需要了解信贷主体的信息情况,对信贷资产的安全性、信贷主体的偿债能力给与科学评价,最大限度地防范贷款逾期风险。
竞赛奖项
赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。
一等奖:¥30,000元 ,1名
二等奖:¥15,000元 ,2名
三等奖:¥10,000元 ,3名
优秀奖:¥2,500元 ,4名
时间安排
2020年11月:举行大赛启动仪式,发布赛事信息
2020年11月—2021年3月:以线上评审形式,开展初赛、复赛
2021年3月—2021年4月:线上线下结合,开展决赛
2021年4月:举办颁奖仪式
任务
从真实场景和实际应用出发,利用个人的基本身份信息、个人的住房公积金缴存和贷款等数据信息,需要参赛者建立准确的风险控制模型,来预测用户是否会逾期还款。
提交说明:
- 结果
提交csv格式,编码为UTF-8,第一行为表头,如下例:
id,label
1,0.556
2,0.987
....
注:对于label字段,其中越接近0代表无逾期,越接近1代表逾期。
数据
备注:报名参赛或加入队伍后,可获取数据下载权限。
训练集提供40000名,测试集提供15000名的缴存人基本信息、缴存信息,贷款信息。选手可以下载数据,在本地进行算法调试,在比赛页面提交结果。
数据样本如下:
为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。
注:此数据测试集增加了干扰样本,这些干扰样本不参与最终分数的计算。 1.数据使用有哪些要求? 本次大赛提供的全部数据、信息等,视为公积金业务的保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。 2、限制原则是什么? 作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;
一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。
评分标准
本次比赛成绩排名根据测试集的在公积金逾期风险监控中,需要尽可能做到尽可能少的误伤和尽可能准确地探测,于是我们选择“在FPR较低时的TPR加权平均值”作为平均指标。
给定一个阀值,可根据混淆矩阵计算TPR(覆盖率)和FPR(打扰率) TPR = TP /(TP + FN) FPR = FP /(FP + TN) 其中,TP、FN、FP、TN分别为真正例、假反例、假正例、真反例。 这里的评分指标,首先计算了3个覆盖率TPR: TPR1:FPR=0.001时的TPR TPR2:FPR=0.005时的TPR TPR3:FPR=0.01时的TPR 最终成绩= 0.4 * TPR1 + 0.3 * TPR2 + 0.3 * TPR3 代码如下:
def tpr_weight_funtion(y_true,y_predict):
d = pd.DataFrame()
d['prob'] = list(y_predict)
d['y'] = list(y_true)
d = d.sort_values(['prob'], ascending=[0])
y = d.y
PosAll = pd.Series(y).value_counts()[1]
NegAll = pd.Series(y).value_counts()[0]
pCumsum = d['y'].cumsum()
nCumsum = np.arange(len(y)) - pCumsum + 1
pCumsumPer = pCumsum / PosAll
nCumsumPer = nCumsum / NegAll
TR1 = pCumsumPer[abs(nCumsumPer-0.001).idxmin()]
TR2 = pCumsumPer[abs(nCumsumPer-0.005).idxmin()]
TR3 = pCumsumPer[abs(nCumsumPer-0.01).idxmin()]
return 0.4 * TR1 + 0.3 * TR2 + 0.3 * TR3
注:
1. 每支团队每天最多提交3次。
2. 比赛采用公榜私榜,公榜成绩供参赛队伍比赛中查看,比赛结束时公布私榜。
山东省第二届数据应用创新创业大赛-临沂分赛场-供水管网压力预测
比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=24
竞赛背景
随着某新区城市规模的持续发展,该城市供水管网规模不断扩大,以供水管网压力大数据为基础,深度挖掘供水管网大数据的价值,为生态链中的供水企业提供多样的数据服务与应用,实现供水管网精细化管理和供水服务事业健康发展,提高供水管网压力预警分析能力,避免水损,保障居民用水。
竞赛奖项
赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。
一等奖:¥30,000元,1名
二等奖:¥15,000元, 2名
三等奖:¥10,000元,3名
优秀奖:¥2,500元,4名
时间安排
2020年11月:线上启动,发布赛事信息
2020年12月—2021年2月:以线上评审形式,开展初赛、复赛
2021年3月:线上线下结合,开展决赛
2021年4月:举办颁奖仪式
任务
通过某新区供水管网的历史压力数据、天气数据和供水管网互通图,预测未来某时间点的压力数据。
数据
备注:报名参赛或加入队伍后,可获取数据下载权限。
主办方提供某新区供水管网数据,数据划分如下:
训练集:2018至2019年的30个压力监测点近两年的压力数据、2018年至2019年的天气数据,以及标明了30个压力监测点位置的供水管网互通图。
测试集:以下4段时间的每小时的压力数据、每天的天气数据,需要分别去预测对应日期每小时的压力数据。
具体数据字段描述如下:
(1)压力数据
(2)气象数据
(3)供水管网互通图
注1:压力监测点数值中数值为0或者负数时为非有效数值。
注2:压力数据,每小时1条数据记录;气象数据,每天1条数据记录。
注3:选手不能利用“未来的实际数据”预测“过去的数据”,例如,假设要预测2020/2/13 23:00的压力值,就不能利用这个时间点以后的真实数据进行预测,尤其需要注意气象数据的使用。
注4:天气原因会对居民用水造成影响,而居民用水情况又会对压力产生一定的影响。例如,假设某新区内管网总供水数量保持恒定,30个压力监测点都同时受居民用水量增减影响,居民用水量大,必然造成管网压力监测点数值下降,反之压力升高。
注5:本次大赛提供的全部数据、信息等,视为水务的保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。
评分标准
本模型依据提交的结果文件,采用均方误差MSE进行评价。
观测值actual(t),预测值forecast(t),待预测的样本数为n,计算公式如下:
参考代码如下:
from sklearn.metrics import mean_squared_error y_true = [0.1,0.2,0.3,0.4] y_pred = [0.2,0.2,0.2,0.3] mse = mean_squared_error(p_true, y_pred)
山东省第二届数据应用创新创业大赛-枣庄分赛场-螺母螺栓产品质量智能检测
比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=17
竞赛背景
智能制造是枣庄市优先发展的战略方向。枣庄市高新科技企业借助人工智能为工业赋能,建设智慧车间,增强工业产能,提高产品质量。本赛题需要参赛团队对成品螺母螺栓的质量进行智能检测,提高智能制造产品质检的智能化水平。
竞赛奖项
赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。
一等奖:¥30000元,1名
二等奖:¥15000元, 2名
三等奖:¥10000元,3名
优秀奖:¥2500元,4名
时间安排
2020年11月24日:举行大赛启动仪式,发布赛事信息
2020年11月—2021年3月:以线上评审形式,开展初赛、复赛
2021年4月:线上线下结合,开展决赛
2021年4月:举办颁奖仪式
任务
建立机器学习模型,判断成品螺母质量是否达标。
注:产品质量检测标准,详见数据下载链接;简单来讲,产品允许一定程度的瑕疵。
数据
备注:报名参赛或加入队伍后,可获取数据下载权限。
训练集共有200张照片,包含100张合格产品的照片和100张张不合格产品的照片。测试集不开放,共计777张。
选手需要提交包含模型的压缩文件,在服务器端执行对测试集图片的预测。
注:
1.数据使用有哪些要求?
本次大赛提供的全部数据、信息等,视为保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。
2、限制原则是什么?
作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。
评分标准
比赛采用标准的macro F1,参考代码如下:
from sklearn.metrics import f1_score
y_true = [1, 0, 1, 0]
y_pred = [1, 1, 1, 0]
score = f1_score(y_true, y_pred, average='macro')
3.2 评测及排行
本次比赛进行线上评测,评测时需要被测团队将算法源代码、模型压缩打包发送给承办方,承办方将使用新的测试集进行统一评测。评测每天每个团队只有一次提交机会。
山东省第二届数据应用创新创业大赛-济南分赛场-健康医疗
比赛链接 http://data.sd.gov.cn/cmpt/cmptDetail.html?id=22
竞赛背景
2019年济南首次迎来国家卫生城市复审,以参审省会城市第一名的成绩高分通过。2020年济南发布《济南市人民政府关于推进健康济南行动的实施意见》,促进以治病为中心向以健康为中心转变,提高人民群众健康水平。围绕打造国际医疗康养名城,济南市稳步提高全民健康素养水平,加快推广健康生活方式,有效控制重大慢性病发病率上升趋势。
竞赛奖项
赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。
一等奖:¥30,000元 ,1名
二等奖 :¥15,000元, 2名
三等奖 :¥10,000元, 3名
优秀奖 :¥2,500元, 4名
时间安排
2020年11月9日:线上启动,发布赛事信息
2020年12月—2021年2月:以线上评审形式,开展初赛、复赛
2021年3月:线上线下结合,开展决赛
2021年4月:举办颁奖仪式
任务
分析门诊/急诊就诊记录数据,预测未来疾病病例数量,为医疗卫生部门统筹规划医疗资源、提前预防疾病提供数据支持。
数据
备注:报名参赛或加入队伍后,可获取数据下载权限。
主办方提供2017年-2020年的疾病数据,数据划分如下:
训练集:2017至2018年的近两年的门诊数据,以及关于需要预测的30个病种的病例数量数据。
测试集:以下6段时间的门诊数据,以及对应的30个病种的病例数量数据。需要分别预测对应日期的病例数量。
具体字段描述如下:
1、门诊/急诊就诊记录(train_2017、train_2018、test_2019、test_2020)
2、疾病数量统计(count_2017、count_2018、count_2019、count_2020)
注:数据不是每天都有记录,部分日期的数据缺失。
作品提交要求
1、文件格式:按照csv格式提交
2、文件大小:无要求
3、提交次数限制:每支队伍每天最多3次
4、文件详细说明:
以csv格式提交,编码为UTF-8,第一行为表头
提交格式见样例submit.csv
5、不需要上传其他文件
评分标准
本模型依据提交的结果文件,采用均方误差MSE进行评价。
观测值actual(t),预测值forecast(t),待预测的样本数为n,计算公式如下:
参考代码如下:
from sklearn.metrics import mean_squared_error
y_true = [0.1,0.2,0.3,0.4]
y_pred = [0.2,0.2,0.2,0.3]
mse = mean_squared_error(p_true, y_pred)
山东省第二届数据应用创新创业大赛-主赛场-检验报告单识别
比赛链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=19
竞赛背景
检验报告是当前患者就医时最常见到的报告类型。大部分情况下,由于患者医学知识的缺失,对于自己的检验报告单往往不知所云。如果能对广大的患者群体,提供一种简便、高效、易用且准确的检验报告单的录入方法,则会对于后续报告自动化解读、健康档案普及、健康管理系统的普及推广产生强有力的推动效应。本题目从真实的业务需求出发,提供了更贴近真实场景更具挑战性更加务实的任务,期待参赛选手们在这些任务上相互切磋、共同进步。
竞赛奖项
赛道共设置一等奖、二等奖、三等奖、优秀奖四类奖项。
一等奖: ¥30,000元, 1名
二等奖: ¥15,000元, 2名
三等奖: ¥10,000元, 3名
优秀奖: ¥2,500元, 4名
时间安排
2020年11月9日:线上启动、发布赛事信息、开启报名通道
2020年11月—2021年3月:以线上评审形式开展初赛
2021年3月11日—4月15日:线上线下结合开展决赛
2021年4月16日:举办颁奖仪式
任务
根据以上给定的检验报告单,将图片中的文字内容,识别提取出检验项目、结果、单位三项内容。根据上图结果如下:
数据
备注:报名参赛或加入队伍后,可获取数据下载权限。
本题目的开发不限制数据集的使用,鼓励使用生成数据的方法来进行训练开发。
本次比赛仅公开提供100个报告单图片数据,作为参赛选手线下测评使用。
注:
1.数据使用有哪些要求?
本次大赛提供的全部数据、信息等,视为保密信息。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。
2、限制原则是什么?
作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。
评分标准
使用ROUGE-L算法来评价识别输出的结果与真实结果。
单个图片对应的表格数据依照从左上到右下的顺序将每个单元格内的字符串连接起来,形成原始字符串。将模型输出的表格数据作相同处理,生成识别字符串。
对原始字符串与识别字符串作ROUGE-L计算,不同的图片之间,求平均结果,作为最终的评价指标。最终评价指标详见样例评分代码。
评测及排行:
由于OCR任务性质的特殊,本次比赛进行线上评测,评测时需要被测团队将算法源代码、模型压缩打包发送给承办方,承办方将使用新的测试集进行统一评测。评测每天每个团队只有一次提交机会。