10000条“视频/音乐/书籍数据”命名实体识别标记数据分享

10000条“视频/音乐/书籍数据”命名实体识别标记数据分享_第1张图片

    类似于人名/地名/组织机构名的命名体识别数据集,资源标注了大约10000条视频/音乐/书籍数据。数据的意义希冀能够基于此训练NLP模型识别句子中的视频/音乐/书籍等名称信息.

 

    资源整理自网络,源地址:https://github.com/LG-1/video_music_book_datasets    

   标注数据下载地址:

    https://github.com/LG-1/video_music_book_datasets/tree/master/data

 

数据的标注过程:

    1、先纯手动提取标记了一部分(大约5000条),基于标注数据训练一个base模型,基于base模型重新审视校正标注数据.

    2、基于校正后的数据再训练一个模型,基于模型标注了另外约5000条数据.并对数据进行人工审核校验.

    最终数据集包含9632条数据.

 

理论上来说,任务也会是标准的NER任务.

难点:同一个名称可能是书籍也可能是视频(电视电影可能是由小说改编而来,有些场景关注书籍,另外一些可能关注视频),有些句子则只是提供了一长串并列的名称,可能没有更多的辅助信息;

 

    示例:

放暑假了,最近剧荒,陈情令也才一个星期更新三次,根本不够看,问问大家有什么好看的电视剧或电影推荐吗?最好是那种搞笑,温暖的那种,日剧也可以,好像道骏枝佑的剧还不错!

    label: 陈情令/video

 

    最近有没有好看的电视剧推荐,国内国外的都可以,前两天再追少年派,但剧情走向越来越扯,非常想给编剧寄刀片,现在想看些正常三观的剧,大家有没有推荐哒?

    label: 少年派/video

 

    最近有些剧荒啊,有什么好看的电视剧或者电影可以推荐么?我看的也比较杂,权力的游戏,黑色止血钳,最近看的韩剧囚犯医生是大爱啊,类似这种类型的可以给我推荐一些么?

    label: 权力的游戏/video黑色止血钳/video囚犯医生/video

 

    我个人比较喜欢听古风歌曲,然后呢,我歌单里面可以给你推荐几首,归去来兮琵琶行清明上河图好可以去试着搜索一些古装剧的主题曲或者插曲

    label: 归去来兮/music琵琶行/music清明上河图好/music

 

    不知道你喜欢什么类型的小说,最近在看十宗罪,悬疑烧脑类的,讲述的是公安部门打击违法犯罪的故事,现在已经出到第六部了,估计够你看一个月了。大冰写的书也可以尝试看一下,文艺小清新类型的

    label: 十宗罪/book

 

最终提供的数据集转换成了标准的BIO标注格式,欢迎尝试使用。

往期精品内容推荐

波士顿动力最强新秀体操型Atlas机器人

NeurIPS-2019接收论文最全列表(1429)

文本生成公开数据集/开源工具/经典论文详细列表分享

基于GPT-2和百万源码训练实现全语言编程自动补全

深度学习-机器学习从入门到深入全套资源分享

深度神经网络压缩和加速相关最全资源分享

Graph Neural Network(GNN)最全资源整理分享

深度学习基础系列之2019深度学习暑期课程视频分享(中英字幕)

斯坦福NLP组-CS224n: NLP与深度学习-2019春全套资料分享

最全中文自然语言处理数据集、平台和工具整理

元学习(Meta Learning)最全论文、视频、书籍资源整理

你可能感兴趣的:(深度学习文章阅读笔记,深度学习与NLP,深度学习优化策略汇总)