OntoNotes 4.0、OntoNotes 5.0数据集介绍 && 下载

来源: AINLPer公众号(每日干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2023-6-30

引言

 OntoNotes 4.0、OntoNotes 5.0数据集对于众多研究人员及开发人员来说,是一个非常重要的资源,它提供了丰富的语义注释数据,用于训练和评估各种NLP任务和模型。它已经被广泛应用于命名实体识别、词性标注、句法分析、语义角色标注等任务的研究和开发中,并对推动自然语言处理领域的进展做出了贡献。

了解这两个数据集的同学,需要下载的,可拉到最后。

OntoNotes 4.0

 OntoNotes 4.0是由康奈尔大学、宾夕法尼亚大学和新闻集团(New York Times)合作创建和维护的大规模语义注释数据集。它是OntoNotes系列数据集的第四个版本,发布于2011年。

 OntoNotes Release 4.0 包含早期版本(OntoNotes Release 1.0 LDC2007T21、OntoNotes Release 2.0 LDC2008T04 和 OntoNotes Release 3.0 LDC2009T24)的内容,并添加了英文和中文的新闻专线、广播新闻、广播对话和网络数据以及阿拉伯语的新闻专线数据。 该出版物累计字数为 240 万字,具体如下: 阿拉伯语新闻专线 30 万字、中文新闻专线 25 万字、中文广播新闻 25 万字、中文广播对话 15 万字、中文网络文本 15 万字、英文新闻专线 60 万字、20 万字 英语广播新闻词、20万词的英语广播对话和30万词的英语网络文本。

OntoNotes 5.0

 OntoNotes 5.0 是一个大型语料库,包含三种语言(英语、中文和阿拉伯语)的各种类型的文本(新闻、会话电话语音、网络博客、新闻组、广播、脱口秀)以及结构信息(语法和谓词参数结构)和 浅层语义(与本体和共指相关的词义)。OntoNotes 版本 5.0 包含早期版本的内容 - 并添加来自新闻专线、广播新闻、广播对话、电话对话和英语和中文网络数据以及阿拉伯语新闻专线数据的源数据和/或附加注释。

获取方法

方式1、注册LDC账号并加入组织获取数据,相关链接:LDC官方网站,具体申请流程可以参考:数据集申请流程

方式2、关注 AINLPer公众号,,回复:OntoNotes

你可能感兴趣的:(自然语言数据集分享,人工智能,自然语言处理)