2020语言与智能技术竞赛启动,百度提供最大规模中文数据集

个人博客导航页(点击右侧链接即可打开个人博客):大牛带你入门技术栈 

语言是传递人类信息最重要的媒介,让机器理解语言并使用语言进行交互是实现通用人工智能的重要挑战。3月10日,2020语言与智能技术竞赛正式启动,面向全球开发者开启报名通道。

本届竞赛由中国中文信息学会(CIPS)和中国计算机学会(CCF)联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会中文信息技术专委会联合承办,并将在第五届“语言与智能高峰论坛”举办技术交流和颁奖,获胜团队将分享总额35万人民币的奖金。届时,国内外学术界、工业界知名专家学者,也将面向社会公众介绍国内外语言与智能及相关领域的发展趋势和创新成果。

 

2020语言与智能技术竞赛启动,百度提供最大规模中文数据集_第1张图片

 

本次竞赛共设立五个任务,包括机器阅读理解、面向推荐的对话、语义解析、关系抽取和事件抽取,涉及到语言理解、人机对话、知识抽取等复杂技术。研究上述任务对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义,是自然语言处理和人工智能领域的重要前沿课题。

本次竞赛的五个任务都将提供百度大规模中文数据集,为研究者提供学术交流平台,推动语言理解、人工智能领域技术研究和应用的发展。

 

01 三大经典任务全面升级,覆盖更多真实应用场景

 

本次竞赛中,机器阅读理解、面向推荐的对话、关系抽取三大经典任务在2019年的基础上做了全面升级。机器阅读理解是指让机器阅读文本,然后回答和阅读内容相关的问题。与2019年相比,今年的阅读理解任务,将重点关注阅读理解模型在真实应用场景中的鲁棒性。因此,在本次竞赛中特别构建了 DuReader_robust 数据集,用于考察模型在多个维度上的鲁棒性,包括模型的过敏感性、过稳定性以及泛化能力。数据集中的样本均来自于实际的应用场景,难度大、考察点丰富,覆盖了真实应用中诸多难以解决的问题。面向推荐的对话则是指集成对话系统和推荐系统的人机交互系统,该系统先通过问答或闲聊等形式收集用户兴趣和偏好,然后主动给用户推荐其感兴趣的内容。真实世界的人机交互会同时涉及到多种类型的对话,如何自然的融合多类型对话是一个重要的挑战。

为了应对这个挑战,本次竞赛将提出一个新的任务——多类型对话中的面向推荐的对话。期望系统能够主动且自然地将对话从非推荐对话引导到推荐对话,然后基于收集到的用户兴趣及用户实时反馈,通过多次交互完成最终的推荐目标。同时,任务还将提供多种对话类型、多个领域、融合用户 profile 信息的对话逻辑数据集,贴近真实的应用场景。关系抽取是指从自然语言文本中抽取实体及其之间的关系。本次竞赛在去年信息抽取任务的基础上进行了两处升级:

  1. 在简单 SPO 关系的基础上增加了复杂关系类型,用以刻画现实世界中广泛存在的复杂关系;
  2. 引入百度贴吧口语化表达语料,其文本语义自由度更高,更贴近日常口语表达习惯,使关系抽取评测任务具有更大的挑战性和实战应用价值。

 

02 新增两大热门任务,为参赛者带来全新挑战 

 

与往年竞赛不同,除沿袭机器阅读理解、面向推荐的对话、关系抽取三大任务外,还特别新增了语义解析与事件抽取两大热门任务。语义解析任务旨在让机器能自动将用户输入的自然语言问题转成可与数据库操作的编程语言(如SQL),以降低结构化数据使用的门槛和成本,同时提升结构化数据使用的价值和效率。

当前的中文 Text-to-SQL 数据集的数据库基本都是由单表构成的,问题模式比较简单,仅覆盖实际应用中存在的部分问题。本次竞赛将首次发布 DuSQL 数据集,包含164个领域的200个数据库覆盖了匹配、计算、推理等实际应用中常见的问题形式,每个问题关联一个数据库中一或多张表格。该数据集更贴近真实应用场景,对模型解决领域无关性、问题无关性、计算推理问题的能力提出了更高的挑战。事件抽取一直受到学术界和工业界的广泛关注,具有重要的实用价值,也极具挑战。此次竞赛中,该任务目标是通过给定目标事件类型和角色类型集合及句子,识别句子中所有目标事件类型的事件,并根据论元角色集合抽取事件所对应的论元。针对事件抽取任务,百度将对外发布当前业界最大规模的中文事件抽取数据集,其中包含65个事件类型和1.7万个具有事件信息的句子。希望通过此次竞赛及开放的大规模中文数据集,助力事件抽取技术的进一步发展。

 

03 百度飞桨火力全开,为参赛选手提供全面支持 

 

作为本次竞赛的承办方,百度还将为参赛选手提供全面的技术资源及平台支持。本次比赛中,百度将为五大竞赛任务提供基于飞桨 PaddlePaddle 基线系统,助力选手快速熟悉比赛环境。作为开源开放、功能完备的产业级深度学习平台,飞桨具备开发便捷的核心框架、支持超大规模深度学习模型训练、多端多平台部署的高性能推理引擎和产业级开源模型库等领先技术,鼓励大家使用飞桨完成模型的设计、训练和预测。不仅如此,百度大脑AI Studio也将为本次比赛提供软硬件环境的支持。AI Studio 是基于飞桨平台的一站式 AI 开发实训平台,为参赛团队提供在线编程环境、Tesla V100 免费 GPU 算力、海量开源算法和数据。选手登录 AI Studio 即可获得算力,每天登录 AI Studio 并运行 Notebook 即可获得12小时算力,连续登录5天额外领取48小时算力。AI Studio 宣布将为报名参加2020语言与智能技术比赛的参赛团队额外提供免费 GPU 算力时长,彻底破除算力桎梏,助力选手取得优异成绩。

 

2020语言与智能技术竞赛已于2020年3月10日正式启动竞赛报名,并开放竞赛平台,发放样例数据,并于3月31日对报名者发放全部训练数据和第一批测试数据。

竞赛的每个任务都将分别评出一等奖1名,二等奖1名,三等奖1名和优胜奖2名,主办方中国中文信息学会(CIPS)和中国计算机学会(CCF)将为获奖者提供荣誉证书认证。同时,百度公司将为获奖者提供奖金和参会旅行赞助。

附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读/书籍书单大全:

(点击右侧 即可打开个人博客内有干货):技术干货小栈
=====>>①【Java大牛带你入门到进阶之路】<<====
=====>>②【算法数据结构+acm大牛带你入门到进阶之路】<<===
=====>>③【数据库大牛带你入门到进阶之路】<<=====
=====>>④【Web前端大牛带你入门到进阶之路】<<====
=====>>⑤【机器学习和python大牛带你入门到进阶之路】<<====
=====>>⑥【架构师大牛带你入门到进阶之路】<<=====
=====>>⑦【C++大牛带你入门到进阶之路】<<====
=====>>⑧【ios大牛带你入门到进阶之路】<<====
=====>>⑨【Web安全大牛带你入门到进阶之路】<<=====
=====>>⑩【Linux和操作系统大牛带你入门到进阶之路】<<=====

天下没有不劳而获的果实,望各位年轻的朋友,想学技术的朋友,在决心扎入技术道路的路上披荆斩棘,把书弄懂了,再去敲代码,把原理弄懂了,再去实践,将会带给你的人生,你的工作,你的未来一个美梦。

你可能感兴趣的:(2020语言与智能技术竞赛启动,百度提供最大规模中文数据集)