NLP开源数据集汇总

NLP开源数据集汇总_第1张图片

源 | 极市平台

本文汇总了几个NLP相关的开源数据集,均附有下载链接。

CASIA手写数据集

数据集地址:http://m6z.cn/6pFPtC

CASIA-HWDB-T:一个从中文手写数据库CASIA-HWDB收集的触摸字符数据库。所有接触的字符(或字符串)都用字符类别、接触点的位置以及字符串高度(LH)和平均笔划宽度(SW)等辅助值进行注释。

根据不同的语言类型,触摸字符串分为四个子集:2788 个全数字字符串(HWDB-T-allDigits)、328 个全字母字符串(HWDB-T-allLetters)、50157 个全中文字符串(HWDB-T -allChinese)和 3,196 个混合字符(HWDB-T-other)。

NLP开源数据集汇总_第2张图片

Twitter地理定位信息数据集

数据集地址:http://m6z.cn/5VFbms

训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT:纬度,经度”的形式上传的。

NLP开源数据集汇总_第3张图片

印度新闻头条数据集

数据集地址:http://m6z.cn/5O90Vj

该新闻数据集是印度从 2001 年初到 2022 年第一季度的重要事件的持久历史档案,由印度记者实时记录。它包含印度时报发布的大约 360 万个事件。大部分数据集中在印度地方新闻,包括国家、城市和娱乐。由Rohit Kulkarni编写

NLP开源数据集汇总_第4张图片

专利短语数据集

数据集地址:http://m6z.cn/6i9CsN

该数据集是为美国专利短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息。NLP开源数据集汇总_第5张图片

电影元数据

数据集地址:http://m6z.cn/6i9Cth

这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。

NLP开源数据集汇总_第6张图片

Twitter 情绪推文数据集

数据集地址:http://m6z.cn/5zMyu3

每行包含一条推文的文本和一个情绪标签。在训练集中,您将获得一个从推文 (selected_text) 中提取的单词或短语,它封装了所提供的情绪。

NLP开源数据集汇总_第7张图片

幸福畅销书评论数据集

数据集地址:http://m6z.cn/63boFl

自 2005 年以来,整体幸福感正在下降,而悲伤和愤怒等负面情绪却在上升。更糟糕的是,越来越多的年轻人患有精神疾病、成瘾及其后果。本数据集收集了排名前33名的关于幸福的书籍、评论和引用。

NLP开源数据集汇总_第8张图片

Olist电子商务公共数据集

数据集地址:http://m6z.cn/6aHBQk

这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单:从订单状态、价格、付款和货运绩效到客户位置、产品属性,最后是客户撰写的评论。这是真实的商业数据,已匿名,评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。

NLP开源数据集汇总_第9张图片

假新闻和真实新闻数据集

数据集地址:http://m6z.cn/5zMyx7

本数据集汇总了2015年-2018年间的一些真实的新闻和虚假的新闻,包含每篇新闻的主题类型、标题、正文和日期。

NLP开源数据集汇总_第10张图片

Top1000的Github存储库数据集

数据集地址:http://m6z.cn/5VFbZk

关于 Github 上的 1000 个最受欢迎的存储库的详尽数据。

NLP开源数据集汇总_第11张图片

NLP开源数据集汇总_第12张图片后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

NLP开源数据集汇总_第13张图片

你可能感兴趣的:(字符串,数据库,java,正则表达式,python)