百度搜索首届技术创新挑战赛资料分享

本文参与了 SegmentFault 思否征文「百度搜索技术创新挑战赛」,欢迎正在阅读的你也加入

一、搜索问答

赛题背景
近年来,随着机器阅读理解与深度预训练模型等相关技术的发展,抽取式智能问答系统的性能取得了非常明显的提升。然而,在开放领域的搜索场景下得到的网页数据会非常复杂,其中往往存在着网页文档质量参差不齐、长短不一,问题答案分布零散、长度较长等问题,给答案抽取和答案置信度计算带来了较大挑战。

本赛题希望从答案抽取和答案检验两个方面调研真实网络环境下的文档级机器阅读理解技术,以求进一步提升深度智能问答效果,给用户提供更好的搜索体验。

任务概述
本次任务共分为两个子任务,分别涉及基于复杂网页文档内容的答案抽取和答案检验技术,需全部完成。请用飞桨 AI Studio配置的NVIDIA A100完成参赛作品。

排名计算:选手根据提交要求将结果提交至AI Studio后,区域赛将基于两个任务的打榜结果加权平均选出前N名,无需评审。决赛将基于软件延展开发、技术深度、创新性打分和打榜结果最终确定获奖队伍,决赛将有专家评审。

二、 相关数据集

DuReader_checklist

本次评测的阅读理解数据集 (即DuReader_checklist) 旨在通过建立细粒度的评测体系(类似于checklist [1]),系统性地评估当前模型能力的不足之处。数据集评测体系中涉及到的自然语言理解能力包含:词汇理解、短语理解、语义角色理解以及推理能力等等。具体的分类可参考下图。https://github.com/baidu/DuRe...

DuReader 2.0

DuReader_robust

DuReader robust它旨在从以下几个方面挑战 MRC 模型:(1) 过度敏感,(2) 过度稳定和 (3) 泛化。此外,DuReader robust比以往的数据集还有一个优势:问题和文档来自百度搜索。它提出了将 MRC 模型应用于实际应用程序时的稳健性问题。

中文机器阅读理解的鲁棒性数据集

https://github.com/unlimiteda...

更多数据集

  • CMRC 2018 数据集较小,只有能回答的问题,问题类型比较单一。里面还有空格,huggingface 的transfomers不能正常读取。
  • Dureader 2019 数据集规模较大,但是数据文本质量不敢赞誉,优秀的数据预处理方法可以提升好几个百分点。只要数据清理的好,结果就不差
  • CAIL 2019 法研杯机器阅读理解,数据领域性比较强,文本质量很高。
  • 中国军事机器阅读理解 数据领域性比较强,数据未公开。
  • DRCD 繁体版中文表述和简体中文表述存在一定的差异。

三、历史比赛

2021语言与智能技术竞赛:机器阅读理解任务

比赛链接:https://aistudio.baidu.com/ai...

给定一个问题q,一段篇章p及其标题t,参赛系统需要根据篇章内容,判断该篇章p中是否包含给定问题的答案,如果是,则给出该问题的答案a;否则输出“无答案”。数据集中的每个样本,是一个四元组,例如:

问题 ( q ): 番石榴汁热量
篇章 ( p ): 番石榴性温,味甜、酸、涩…,最重要的是番石榴所含的脂肪热量较低,一个番石榴所含的脂肪约0.9克重或84卡路里。比起苹果,番石榴所含有的脂肪少38%,卡路里少42%。
标题 ( t ): 番石榴汁的热量 - 妈妈网百科
参考答案 ( a ): [‘一个番石榴所含的脂肪约0.9克重或84卡路里’]

问题 ( q ): 云南文山市多少人口?
篇章 ( p ): 云南省下辖8个市、8个少数民族自治州,面积39万平方千米,总人口4596万人,云南汉族人口为3062.9万人,占云南省总人口的66.63%…
标题 ( t ): 云南总人口数多少人,2019年云南人口数量统计(最新)
参考答案 ( a ): [‘无答案’]

四、博客笔记

BERT实战——(4)问答任务-抽取式问答
NLP系列之机器阅读理解(二):CheckList,如何更细粒度评估模型效果/如何创建更“鲁棒”的训练集—百度21lic机器阅读比赛有感
LICS2021 MRC

你可能感兴趣的:(百度搜索技术大赛百度搜索大赛)