近期,由百度商业联合中国人工智能学会举办、NVIDIA提供战略支持,百度飞桨承办的“百度商业AI技术创新大赛”正式启动,启动会现场,中国工程院院士、中国人工智能学会理事长、清华大学信息科学技术学院院长戴琼海院士通过视频方式对大赛启动表示祝贺。
戴琼海院士线上致辞
中国人工智能学会副理事长、清华大学教授孙富春代表中国人工智能学会表示,本次竞赛将为激发年轻人想象力和创新能力提供重要平台,推动AIGC领域的人才培养。
孙富春教授祝贺大赛启动
作为本次赛事的战略合作伙伴NVIDIA,NVIDIA全球副总裁刘念宁表示,作为在AIGC领域从业的女性代表,希望能有更多女性投身到AIGC技术研究领域中,为国内人工智能、科技浪潮推动贡献一份力量。
NVIDIA全球副总裁刘念宁现场寄语女性开发者
本次大赛聚焦 “AIGC推理性能优化”与“商业转化行为预测两大热点议题,赛事面向全社会开放,重点聚焦高校人才。本次大赛设有丰厚的奖金机制,奖池共计63万元(其中赛道一奖池总计42万元,赛道二奖池总计21万元),最高级别奖金高达20万元。同时,针对表现优异的高校参赛者,百度还将提供校招直通机会,为职业发展奠定基础。
参赛阶段
本届大赛分为区域赛、复赛、决赛三个阶段,区域赛将由四大赛区独立排名及颁奖,复赛及决赛将依据总排名进行选拔和评比。
各赛段时间安排
区域赛:5月18日官网上线起-7月13日11:59:59
复赛:7月18日12:00:00-8月3日11:59:59
总决赛:8月14日、8月15日
赛题介绍:AIGC推理性能优化
产业背景
百度商业引擎依托深厚的AIGC技术积累,通过落地ERNIE文心大模型,为客户带来了显著的营销效果提升。在商业大模型的工业化部署实践中,针对复杂生成模型的高性能推理优化,对于保障客户营销投放体验、控制算力成本至关重要。
赛题任务
本赛题提供了一个典型的ERNIE生成模型,参赛者可以基于该模型,通过各种优化技术,在百度飞桨AI Studio配置的NVIDIA V100 32G上实现最优的模型推理性能。
数据集简介
训练数据集使用的是百度商业真实脱敏数据。其中,测试集数据约2000条左右,区域赛验证集1万左右,复赛验证集5万左右,验证集数据无summary字段。
测试集数据样列
样本输入:每条样本数据一行,其中数据格式为json主要分两部分输入内容为content,答案为summary。
{
"content": "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞",
"summary": "简约而不简单的牛仔外套,白色的衣身十分百搭。衣身多处有做旧破洞设计,打破单调乏味,增加一丝造型看点。衣身后背处有趣味刺绣装饰,丰富层次感,彰显别样时尚。"
}
{
"content": "类型#裙*材质#针织*颜色#纯色*风格#复古*风格#文艺*风格#简约*图案#格子*图案#纯色*图案#复古*裙型#背带裙*裙长#连衣裙*裙领型#半高领",
"summary": "这款BRAND针织两件套连衣裙,简约的纯色半高领针织上衣,修饰着颈部线,尽显优雅气质。同时搭配叠穿起一条背带式的复古格纹裙,整体散发着一股怀旧的时髦魅力,很是文艺范。"
}
验证集数据样列
样本输入:每条样本数据一行,其中数据格式为json输入内容只有content。
{"content": "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞"}
评价指标
模型效果:模型效果以效果指标评估损失3%以内,可通过BLEU评估模型的效果指标。
模型性能:测试集完成推理的耗时评估考虑真实应用场景,本赛题对于离线推理GPU资源占用不能超过V100单卡32G限制,所有优化都是基于单卡为基础。
结果提交
目录格式,环境会自动准备默认的模型文件,如果使用标准模型,不需要上传,路径通过参数传入run.sh。
| bin 存放二进制文件
| src 存放cpp文件或者python代码
| lib 存放依赖的库文件
| build.sh 构建环境依赖脚本,参数传入模型路径
| run.sh 执行脚本,参数三个,模型、评估文件、输出结果
具体执行方式如下:
sh build.sh 【模型路径】
sh run.sh 【模型路径】 【评估文件】 【输出结果】
注:验证环境不能访问外网,不支持在线安装软件,所有依赖需要打包上传编译安装。
报名链接
https://aistudio.baidu.com/aistudio/competition/detail/913/0/introduction
Baseline链接-基于PaddleNLP
https://aistudio.baidu.com/aistudio/projectdetail/598805454
赛题介绍:商业转化行为预测
赛题任务
本次比赛提供了百度真实的广告数据集,包含了海量的用户行为数据和广告特征。希望参赛者使用深度学习模型,建模转化率预估模型。 给定用户及广告信息,预估转化概率,即pcvr = p(cv=1 | user, ad)。
数据集
本次比赛提供N天广告日志抽样数据:
训练集:前N-1天数据,供参赛者训练/调试模型。
测试集:第N天数据。
注:首次发布内容包含初赛测试数据集,复赛测试数据集将在复赛阶段发布。
评估指标
最终排名综合考虑auc及pcoc指标。
结果提交
参赛选手需要提交一个命名为xxx.zip(eg : tests.zip)的压缩包,且压缩包包含一个txt文件:
test-1.txt
其中test-1.txt中包含样本的key及预估值,用逗号分割,每条样本占用一行。eg:
log_id1,0.02
log_id2,0.03
报名链接
https://aistudio.baidu.com/aistudio/competition/detail/877/0/introduction
Baseline链接-基于PaddleRec
https://aistudio.baidu.com/aistudio/projectdetail/6120125
飞桨护航,助力选手参赛
大赛将以百度飞桨产业级深度学习开源开放平台为技术基座,为参赛者提供丰富的产业级模型库与工具组件,进一步降低AI技术应用门槛。飞桨AI Studio将为大赛报名及训练提供关键平台,并提供免费算力支持。