问答系统数据集

问答系统数据集

HotpotQA

HotpotQA是一个具有自然,多跳问题的问题回答数据集,在支持事实方面进行了严格的监督,以启用更具解释性的问题回答系统。 它由卡内基梅隆大学,斯坦福大学和蒙特利尔大学的NLP研究人员团队收集。

论文地址

官网地址

HotpotQA是一个包含113k个基于维基百科的问答对的数据集。 问题需要在多个支持文档中进行查找和推理,并且不限于任何现有的知识库。 提供句子级别的支持事实。

image-20200215153046661.png

问题的覆盖率如上图所示

image-20200215151503366.png

一个数据集的例子如上图所示,它包含了多个段落,每个段落的句子都有相应的下标,在json文件中的形式如下:

  • _id: 唯一表示的ID

  • question: 一个问题字符串

  • answer: 一个答案字符串

  • supporting_facts:一个列表,包括所有支持该回答的事实句子,每一项都有两个元素 [title, sent_id], title是段落的标题,sent_id是句子的下标

  • context: [title, sentences] 共参考的多个段落,每个段落有标题和一个句子列表

MS MARCO(QnA2.1)

MS MARCO又名人类生成的机器阅读理解数据集,由Microsoft AI&Research设计和开发。

论文地址

MS MARCO官网地址

  • 这些问题是从真实的匿名用户查询中获得的。

  • 答案是人为产生的。 使用最新的Bing搜索引擎从真实文档中提取从中获取答案的上下文段落。

  • 该数据集有1,010,916个数据

    数据集格式如下:

    {
    "answers":["A corporation is a company or group of people authorized to act as a single entity and recognized as such in law."],
    "passages":[
    {
    "is_selected":0,
    "url":"http://www.wisegeek.com/what-is-a-corporation.htm",
    "passage_text":"A company is incorporated in a specific nation, often within the bounds of a smaller subset of that nation, such as a state or province. The corporation is then governed by the laws of incorporation in that state. A corporation may issue stock, either private or public, or may be classified as a non-stock corporation. If stock is issued, the corporation will usually be governed by its shareholders, either directly or indirectly."},
    ...
    }],
    "query":". what is a corporation?",
    "query_id":1102432,
    "query_type":"DESCRIPTION",
    "wellFormedAnswers":"[]"
    }

image-20200215153635263.png

上图展示了问题和答案的分类情况

NewsQA

论文地址

官网地址

NewsQA数据集是一个阅读理解数据集,其中包含来自CNN的10,000多个新闻文章的100,000多个人工生成的问题-答案对,答案包括来自相应文章的文本范围。 该数据集的一些具有挑战性的特征是:

  • 答案是任意长度的跨度

  • 相应的文章中有些问题没有答案

  • 没有可供选择的候选答案。 尽管与SQuAD数据集非常相似,但NewsQA在引入时对现有模型提出了更大的挑战(例如,段落比SQuAD中的段落更长)。 根据F1和完全匹配对模型进行评估。

例子:

Story Question Answer
MOSCOW, Russia (CNN) -- Russian space officials say the crew of the Soyuz space ship is resting after a rough ride back to Earth. A South Korean bioengineer was one of three people on board the Soyuz capsule. The craft carrying South Korea's first astronaut landed in northern Kazakhstan on Saturday, 260 miles (418 kilometers) off its mark, they said. Mission Control spokesman Valery Lyndin said the condition of the crew -- South Korean bioengineer Yi So-yeon, American astronaut Peggy Whitson and Russian flight engineer Yuri Malenchenko -- was satisfactory, though the three had been subjected to severe G-forces during the re-entry. [...] Where did the Soyuz capsule land? northern Kazakhstan

SQuAD

斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由人群工作人员在一组维基百科文章上提出的问题组成。 每个问题的答案都是来自相应阅读段落的一段文本(一个跨度)。 最近,SQuAD 2.0已发布,其中包含无法回答的问题。

官网地址

论文地址

2.0的特点在于增加了许多无法回答的反面例子
image-20200215155037341.png

SQuAD是一个十分重要的数据集,各类paper都会拿他来做测试,比较有权威性,不过缺点就是他的回答一般是很简短的一个词组

NarrativeQA

NarrativeQA是旨在鼓励更深层次的语言理解而建立的数据集。 该数据集涉及阅读整本书或电影剧本的推理。 该数据集包含约45万个自由格式文本的问题答案对。 该数据集有两种模式(1)对摘要的阅读理解和(2)对整本书/脚本的阅读理解。

官网地址

论文地址

image-20200215160455922.png

documents.csv-包含document_id,集合,种类,story_url,story_file_size,wiki_url,wiki_title,story_word_count,story_start,story_end。 经过一些基本的清理和标记化后,字数是近似的。 third_party / wikipedia / summaries.csv-包含document_id,集合,摘要,summary_tokenized。 摘要来自维基百科。

Cosmos QA

Cosmos QA是一个35.6K问题的大规模数据集,需要基于常识的阅读理解,被表述为多项选择题。 它着重于在人们日常叙事的不同集合之间的界线之间进行阅读,询问有关事件的可能原因或后果的问题,这些事件需要推理超出上下文的确切范围。

官网地址

论文地址

每个数据实例均包含一个段落(上下文),一个问题和4个候选答案。 每个系统的目标是通过阅读段落确定最合理的答案。

DuReader

论文地址

官网地址

DuReader是一个大型的开放域中文机器阅读理解(MRC)数据集,旨在解决现实世界中的MRC。 链接到纸张

与其他MRC数据集相比,DuReader具有三个优点:

  1. 数据来源:问题和文献均基于百度搜索和百度知道; 答案是手动生成的。

  2. 问题类型:它为更多问题类型提供了丰富的注释,尤其是是和否问题,为研究界留下了更多的机会。

  3. 规模:包含30万个问题,66万个答案和150万个文档; 它是迄今为止最大的中国MRC数据集。 为了帮助社区进行这些改进,DuReader和基准系统的数据集都已在线发布。

排行榜可在DuReader页面上找到。

image-20200215170221641.png

DuReader的示例

SearchQA

SearchQA 的构造可反映一般问题解答的完整流程。 SearchQA包含超过140k的问答对,每对平均具有49.6个摘要。 SearchQA的每个问题-答案-上下文元组都带有其他元数据,例如代码段的URL。

它紧密反映了一个(假设的)通用问答系统的全部流程,该系统由信息检索和答案综合组成。

数据集地址

image-20200215171031101.png

一个数据集格式和内容的示例

你可能感兴趣的:(问答系统数据集)