本文总结一些知识库问答常用数据集,主要包括常见复杂KBQA数据库。
常见复杂KBQA数据库:
数据库:Freebase
常用:WebQuestionSP、ComplexWebQuestions、GrailQA
WebQuestionSP:
相关论文:《The Value of Semantic Parse Labeling for Knowledge Base Question Answering》
下载链接:https://www.microsoft.com/en-us/download/details.aspx?id=52763
介绍:2016年提出,是对于WebQuestion的子集的补充,主要是补充了语义解析标注,包含4737条样本,每个问题给出了sparql标注。
ComplexWebQuestions:
相关论文:
《The Web as a Knowledge-base for Answering Complex Questions》
《Repartitioning of the COMPLEXWEBQUESTIONS Dataset》
下载链接:https://www.dropbox.com/sh/7pkwkrfnwqhsnpo/AACuu4v3YNkhirzBOeeaHYala
介绍:2018年提出,包括34689个样本,划分成27734 train,3480 dev,3475 test。基于WebQSP构建了ComplexWebQuestions数据集。首先从WebQSP中采样问题及其SPARQL查询,并自动地构造更复杂的包含组合、连接、比较级以及最高级等形式的SPARQL查询,最后由Amazon Mechanic Turk众包平台将这些SPARQL查询重组为自然语言问题,问题的答案通过在Freebase中执行SPARQL查询获得。
GrailQA:
相关论文:《Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases》
下载链接:GrailQA_v1.0.zip - Orangedox
官网:Strongly Generalizable Question Answering Dataset
介绍:2020年提出,包含64,331个问题,并用不同语法(即SPARQL,S-expression等)的答案和相应的逻辑形式进行注释。它可用于测试KBQA中的三个泛化级别:i.i.d.,composition和zero-shot。该数据集的测试集没有公开,需要提交结果到官网在线测试。
数据库:WikiMovies
MetaQA:
相关论文:《Variational reasoning for question answering with knowledge graph》
下载链接:https://drive.google.com/drive/folders/0B-36Uca2AvwhTWVFSUZqRXVtbUE?resourcekey=0-kdv6ho5KcpEXdI2aUdLn_g
介绍:2017年提出,基于MovieQA的电影KBQA数据集,包括超过400k条样本,数据集中已将问题按跳数进行了区分,其中1跳116045个问题答案对,2跳148724组问题答案对,3跳142744个问题答案对。
数据库:DBpedia、Wikidata
LC-QUAD 2.0
相关论文:《LC-QuAD 2.0: A Large Dataset for Complex Question Answering over Wikidata and DBpedia》
下载链接:
LCQuAD 2.0
https://huggingface.co/datasets/lc_quad/tree/main
介绍:2019年提出,基于DBpedia和Wikidata,大规模的数据集LC-QuAD2,包含30000个问题,同时也提供相应的SPARQL查询。
KQA Pro:
相关论文:《KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base》
下载链接:KQA Pro Homepage
介绍:2022年提出,基于Wikidata的KBQA数据集,包含120K个自然语言问题,并提供对应的SPARQL查询语句和推理过程。问题的答案可以从一个较小规模的合成KB中获取。training/validation/test set划分为94,376/11,797/11,797。