CompHub目前已聚合了来自Kaggle、阿里天池等平台的上千场比赛,本账号同时会推送最新的比赛消息,欢迎关注!
比赛关键信息
主页: https://www.datafountain.cn/competitions/603
奖励: 51000
时间: 2022-09-01 00:00至2022-11-30 23:59
类型: ‘大奖赛’
标签: ‘Data mining’, ‘Smart city’, ‘数据挖掘’, ‘智慧城市’
以下内容转载自比赛主页
为推进智慧水务建设,激发数字化创新能力,助力创新应用挖掘与落地,加快水务行业现代化进程,深圳市环境水务集团有限公司发起主办首届“深水云脑杯”智慧水务数据创新大赛。深水渠成,群智创新!本届大赛将以数字化创新模式为抓手,把握发展脉搏、汇聚产学研力量,成为汇聚大数据、人工智能等数据智能相关信息技术在水务领域应用创新的擂台,揭榜挂帅,推动赛事成果转化,解决社会和行业聚焦的难题,促进水务行业实现智慧升级及高质量发展。
居民小区二次供水需求预测
为进一步保障市民用水健康,更好地满足人民群众日益增长的美好生活需求,深圳市立足自身实际情况,对标世界先进城市,率先在全国推进供水管理进小区。精准预测居民用水需求,保障供水水质水压稳定,是先行示范区供排水一体化企业先进性的重要体现,也是提升百姓幸福感的必由之路。在保障供水水质水压稳定的前提下,如何精准预测区域居民用水需求和规律,降低二次供水的泵组能耗和减少管网水质受用水行为波动影响,是实现城市供水科学调度和低碳高效精细化管理的一大难题。
随着深圳市优质饮用水供水设施改造和智能水表的普及应用,积累的二次供水感知层数据为建立区域居民需水分析预测模型提供了可能。本次赛题主要是通过智能水表和二次供水感知层设备运行历史数据,结合气象数据等互联网相关数据进行数学建模,建立区域居民小区需水预测模型,利用历史用水数据和实时感知数据预测未来一定周期内每小时需水量。
该模型结合二次供水设施水泵和水池调蓄能力,在保障供水水质水压稳定的前提下,可实现区域蓄水平峰调控优化和二供泵组优化辅助决策,保障管网供水输送的水质稳定和二次供水设施的节能高效运行。该模型进一步能为供水管网探漏分析和二次供水泵组选型提供数据支撑。
数字直饮小区:
本次赛题主要通过居民小区智能水表总表读数和二次供水泵后流量计历史数据,结合气象、疫情数据等互联网相关数据进行回归、时序建模,以建立该区域居民小区需水预测模型。利用举办方提供的多个居民小区历史用水数据和感知数据,预测特定周期内不同小区每小时需水量,以指导实际供水运行工作。
2022年9月8日,发布初赛赛题、数据,选手可登录大赛官网报名。选手可登录大赛官网赛题详情页下载A榜数据集,同时大赛正式进入A榜测评阶段,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核。
2022年11月8日24:00,截止报名及组队。
2022年11月11日24:00, A榜评测结束,发布B榜数据集。
2022年11月13日00:00-11月13日24:00 B榜评测阶段。
2022年11月13日24:00,B榜评测结束,榜单锁定。
2022年11月下旬,对排行榜前排候选晋级团队进行作品代码复现审核。
2022年12月中旬,举办决赛评审、颁奖典礼。
1、奖金池
奖项 | 数量 | 奖金(税前) |
---|---|---|
算法赛道一等奖 | 每个赛题1支团队 | 每支队伍¥20,000元,颁发证书 |
算法赛道二等奖 | 每个赛题1支团队 | 每支队伍¥15,000元,颁发证书 |
算法赛道三等奖 | 每个赛题1支团队 | 每支队伍¥10,000元,颁发证书 |
算法赛道优胜奖 | 每个赛题2支团队 | 每支队伍¥3,000元,颁发证书 |
2、其他福利
(1)为优秀参赛企业团队开放合作通道,有机会将与深圳环水集团建立长期合作伙伴关系,共同研发重点产品;
(2)个人团队可获得深圳环水集团内产业链上下游资源赋能,在集团内部平台上实施应用创新,加速创意实现;
(3)获奖作品及部分优秀潜力团队可获得深圳环水集团有关活动、渠道、页面的展示推介机会;
(4)入围决赛团队成员将获得环水集团招聘人才直通车,其他参赛选手可参与大赛专属面试申请通道。
(5)大赛将在比赛过程中为参赛选手提供多种奖品激励。
如已经添加"DF研究员"好友,可直接私信回复“水务”两字加入参赛交流群
参赛组队规则
1、参赛人群:本次大赛面向全国征集参赛团队,不限年龄、国籍,各高校、科研院所、企业从业人员等均可登录官网报名参赛。深圳环水集团员工可参赛,但参与大赛组织策划组织的单位(人员)不可参赛。
2、报名要求:算法赛道每队1-5人,方案赛道每队1-6人。团队成员必须在竞赛平台报名,报名时每人仅能参加一支团队,所有成员需提供个人基本信息,并通过实名认证,参赛选手应当保证身份信息的真实性。大赛组委会承诺其中涉及个人隐私的内容予以保密。需在组队截止日期前完成组队,一旦组队不可退出队伍。
3、组队条件:所有参赛选手应在截止日期前自行完成组队,并以团队身份提交各阶段的作品材料,一旦进入团队,不可退出队伍。算法赛道为保证每支队伍享有相对平等的提交机会,组队需满足各成员提交总次数≤开赛天数*3。方案赛道请参赛选手先行完成组队,再进行作品提交。每日提供1次提交机会,但是以最后1次提交作为最终考核方案。
4、队长责任制:各团队队长作为团队的负责人,需自行进行团队内部分工和协调,并承担与大赛组委会对接沟通(包括但不限于晋级入围、团队信息收集、作品审核、线下活动、奖金发放等)的责任。
注:本次竞赛参赛者可参与多个赛题报名,但每个赛题内只允许参加一支队伍。方案赛要求参赛团队只能选择一个选题方向进行方案提交,不可提交多个选题方向。
作品要求
1、作品提交:算法赛道参赛者每日最多在竞赛平台提交3次作品,测评系统自动评测得分;方案赛道参赛者每日最多在竞赛平台提交1次作品,但是以最后1次提交作为最终考核方案。
2、作品原创:参赛作品必须保证原创性,不违反中华人民共和国任何有关法律法规,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人提出并查证,大赛组委会将取消其比赛资格和成绩并进行严肃处理。
3、作品知识产权:参赛作品(包含但不限于算法、模型、方案等)知识产权归参赛团队所有,大赛主办方有权利将参赛作品、比赛信息、参赛团队信息用于宣传品、相关出版物、制定及授权媒体发布、官方网站浏览及下载、展览(含巡展)等活动项目。若参赛团队依托主办方定向提供的额外数据、系统环境等达成合作型应用成果,具体项目的知识产权则由参赛团队与主办方另行商议约定。
4、作品优先合作:进入决赛的成果产品,同意参与产融对接环节。若深圳环水集团相关单位有意愿试用,须允许试点单位免费试用,试用期为3个月(试用期所产生的部署及维护费用需获奖团队与试用方协商)。试用期结束后,如决定继续使用该成果,将根据双方意愿签署使用、采购协议。
5、竞赛数据说明:组委会授权参赛人员使用提供的数据进行指定比赛的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关数据提供单位。
6、作品合规性:参赛团队需保证提交作品的合规性,若出现下列或其他重大违规的情况,经大赛组委会合议后,取消参赛团队的参赛资格和成绩,获奖团队名单依次顺延。重大违规情况如下:
a) 严重违反赛事参赛规则;
b) 使用小号、串通、剽窃他人代码等涉嫌违规、作弊行为;
c) 不经允许使用外部数据;
d) 团队提交的材料内容不完整,或提交任何虚假信息;
e) 参赛团队无法就作品疑议进行足够信服的解释说明;
f) 提交的作品包含不健康、淫秽、色情或诽谤任何第三方的内容等其他重大违规行为。
评审规则
1、评审条件:所有符合资格的参赛团队在初赛截止日期前所提交的作品均会纳入评审。大赛组委会不对任何因电脑、互联网、移动网络故障而造成的参赛作品损坏、缺失、提交延时等后果承担责任。
2、公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
3、获奖条件:线上评测结束时榜单前5名并且通过代码复现审核的团队为获奖团队;若有团队主动弃赛(组委会按照选手注册时提供的联系方式连续三天未能联系到该团队任一成员,或该团队主动向组委会提出弃赛),获奖名单递补。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证,同时自行检查提交作品的正确性,确认无误后再进行提交,组委会不负责对比赛作品进行更改和调整。
4、线上测评标准:线上测评时间段内,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核,详细评测机制见赛题介绍。
5、获奖选手成果分享会:经代码复现审核通过后的前五支获奖队伍需派代表参加分享会;各队需提交团队介绍视频、作品说明文档、分享PPT等资料,由竞赛平台统一收集。分享会中,各队伍依次对本队获奖作品进行展示和讲解,解答专家疑问、并与主办方专家进行交流。
6、评审结果确认:大赛组委会对作品的评审结果一旦给出则为最终结果,不另对评审结果给出反馈意见。
通知和获奖
1、选手通知:大赛组委会将通过参赛团队预留的联系方式邀请参赛团队参与大赛各项活动,若参赛团队在相关通知发出后3日内未答复,则视为自动放弃相应机会,主办方有权顺位递补其他参赛团队。
2、奖金纳税:所有获奖的参赛团队将得到相应比赛奖金(奖金以人民币计算)或配套基金,奖金个人所得税或其他形式税费将由获奖者承担,由大赛组委会代缴。
3、奖金分配:获奖团队的奖金统一发放给团队队长,团队队长应自行负责在其成员之间分配和分发奖金与奖品,主办方对此将不承担任何责任。
组织方权利
1、大赛组委会保留拒绝某人、某团队参赛或提交作品的权利;
2、大赛组委会拥有对比赛违规、作弊行为的判定权利和处置权利,对影响比赛组织及比赛公平性的参赛团队,大赛组委会保留收回或拒绝授予其奖项、奖金的权利;
3、若因故出现数据更新、评审代码更新、作弊检查等原因,大赛组委会有权对参赛结果进行重新测评并更新排行榜;
4、大赛组委会保留修改比赛各环节时间,包括但不限于作品提交截止日期、线上线下活动日期以及路演、颁奖典礼日期的权利;
5、大赛组委会保留调整比赛各阶段入围团队数量的权利,调整奖项设置及奖金数额的权利,收回或拒绝授予某个特定参赛团队奖项、奖金的权利;
6、大赛组委会保留对比赛规则进行调整修改的权利,大赛主办方拥有对大赛的最终解释权。
指导单位:深圳市工业和信息化局、深圳市水务局
主办单位:深圳市环境水务集团有限公司
协办单位:深圳市水务科技有限公司
合作单位:深圳市东方富海投资管理股份有限公司、深报一本股权投资基金管理(深圳)有限公司、深圳中合信资本管理有限公司
官方竞赛平台:DataFountain
关于深圳环水集团:
深圳市环境水务集团有限公司(简称深圳环水集团)是深圳市委市政府为加快整合全市水务资源,提升城市供水保障与水环境治理能力,于2019年5月在深圳水务集团之上成立的市属国有全资水务控股集团,以原水-供水-排水-水环境治理为核心业务,致力于打造国内领先、具有国际竞争力的水务综合服务商。
截至2020年底,深圳环水集团资产总额336亿元,在全国拥有水厂89座、水质净化厂51座,供排水能力1426万方/日,承担着深圳市99.86%的供水业务和48.74%的污水处理业务,为全国8省24个县市超3000万人提供优质高效的供排水服务。近年来,集团承担了深圳河流域治理以及全市自来水直饮工程等重大民生任务,于2019年率先在盐田建成全国首个自来水直饮示范区,2020年深圳河流域水质以优异成绩通过“国考”,再次刷新历史最好记录。
深圳环水集团致力于发展成为市属水务环境板块资源集中的整合平台、城市水务环境综合服务产业链上下游的投资平台、城市水务环境综合服务产业做强做优做大的产业经营平台。通过资源整合、业务融合、优化配置,实现市属水务资源的板块聚焦与协同发展。
深圳环水集团作为中国水协科技委主任单位,已建成建设部安全饮用水工程研究中心、国家安全饮用水保障技术创新基地、国内首个污泥处理与处置重点实验室等10个科研平台,牵头承担了国家“十二五”“十三五”水污染治理重大科技专项等课题,拥有各类专利成果144项,主编或参编国家标准、行业标准及地方标准80项。作为国内首家将HACCP管理体系应用于城市饮用水生产过程的企业,凭借长期精益求精的质量实践,被国家工信部评为“全国质量标杆”,获颁“深圳市市长质量奖(大奖)”,已跻身中国服务业500强、广东省企业500强,连续三年获得深圳市总部经济企业贡献奖,为城市经济建设发展作出重要贡献。
智能水表数据管理平台、深水大数据平台、深圳市卫生健康委员会官方发布的疫情数据,深圳市气象局公开的气象数据。
供水数据来自于深圳某区域内居民小区实际用水数据脱敏后生成,通过大数据平台获取安装在居民小区二次供水泵后流量计和居民小区智能水表总表的每5分钟间隔历史读数、每小时流量读数和每日流量读数。
数据集介绍
文件名 | 介绍 |
---|---|
daily_dataset.csv | 每日间隔流量数据集,含6个小区(01-06),多个表格间对于小区的编码一致 |
hourly_dataset.csv | 每小时间隔流量数据集,含20个小区(01-20),多个表格间对于小区的编码一致 |
per5min_dataset.csv | 每5分钟间隔流量数据集,含20个小区(01-20),多个表格间对于小区的编码一致 |
sample_submission.csv | 提交样例,仅供参考。 |
test_public.csv | 测试集(小时单位),须提交20个小区、4个不连续周的供水量。也即672(小时数) x 20(小区数)的矩阵。 |
weather.csv | 深圳市天气数据,测试集部分假定未知。 |
epidemic.csv | 深圳市疫情数据,测试集部分假定未知。 |
字段介绍
特征名 | 特征含义 | 备注 |
---|---|---|
time | 时间 | |
train or test | 训练集还是测试集 | train表示训练集 test1,test2,test3,test4表示测试集 测试集非时间特征外的所有特征默认未知 |
flow_1 | 小区01的间隔流量(单位:立方米) | 提供了每天、每小时、每5分钟间隔流量 |
flow_2 | 小区02的间隔流量 | 提供了每天、每小时、每5分钟间隔流量 |
flow_3 | 小区03的间隔流量 | 提供了每天、每小时、每5分钟间隔流量 |
flow_4 | 小区04的间隔流量 | 提供了每天、每小时、每5分钟间隔流量 |
flow_5 | 小区05的间隔流量 | 提供了每天、每小时、每5分钟间隔流量 |
flow_6 | 小区06的间隔流量 | 提供了每天、每小时、每5分钟间隔流量 |
flow_7 | 小区07的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_8 | 小区08的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_9 | 小区09的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_10 | 小区10的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_11 | 小区11的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_12 | 小区12的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_13 | 小区13的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_14 | 小区14的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_15 | 小区15的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_16 | 小区16的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_17 | 小区17的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_18 | 小区18的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_19 | 小区19的间隔流量 | 提供了每小时、每5分钟间隔流量 |
flow_20 | 小区20的间隔流量 | 提供了每小时、每5分钟间隔流量 |
R | 降水(0.1毫米) | |
fx | 风向(度) | |
T | 气温(0.1摄氏度) | |
U | 相对湿度(百分比) | |
fs | 风速(0.1米每秒) | |
V | 能见度(米) | |
P | 气压(百帕) | |
jzrq | 截至日期 | |
zz | 当前重症人数 | |
wz | 当前危重人数 | |
xzqz | 新增确诊人数 | |
xzcy | 新增出院人数 | |
xzsw | 新增死亡人数 | |
glzl | 当前隔离治疗人数 | |
yxgc | 当前医学观察人数 | |
间隔流量:从该时间点到上个时间点的累计水流量。水表偶尔存在长时间没有抄表,使得读数累计了多个时段,呈现数值较大的异常值。该现象仅在训练集中有所体现,测试集没有此类异常。 |
请下载提交样例附件
禁止将提交样例文件直接提交。
评价函数为Mean squared logarithmic error(均方对数误差), y ^ \hat{y} y^为预测值, y y y为真实值, n n n为样本数,m为小区数(Label数),目标是让Loss最小,即让Score最大。设计该指标作为评价函数的目的是为了惩罚供水预测中存在的低估现象。
M S L E ( y , y ^ ) = 1 n ∑ i = 1 n ( log e ( 1 + y i ) − log e ( 1 + y ^ i ) ) 2 L o s s = ∑ i = 1 m M S L E ( y i , y i ^ ) MSLE(y,\hat{y})=\frac{1}{n}\sum_{i=1}^{n}{(\log_{e}{(1+y_i)}-\log_{e}{(1+\hat{y}_i)})^2}\\ Loss=\sum_{i=1}^{m}{MSLE(y_i,\hat{y_i})} MSLE(y,y^)=n1i=1∑n(loge(1+yi)−loge(1+y^i))2Loss=i=1∑mMSLE(yi,yi^)
S c o r e = 1 / ( 1 + Loss ) Score=1 /(1+\text {Loss}) Score=1/(1+Loss)
本赛题中存在四个不同时段且长达一周的测试集。在训练模型时,禁止使用逆时序的方式倒推(即不能使用未来的训练集数据来预测过去的测试集数据),训练集全集均要在测试集之前,否则代码复现时将认定为违规。
如下图所示:
规则举例: