目录
一.文本分类数据集
1.AG_News
2.SogouNews
3.DBpedia
4.YelpReviewPolarity
5.YelpReviewFull
6.YahooAnswers
7.AmazonReviewPolarity
8.AmazonReviewFull
9.IMDB
二,语言模型
1.WikiText-2
2.WikiTest103
3.PennTreebank
三,机器翻译
1.Multi30k
2.IWSLT2016
3.IWSLT2017
四,序列标注
1.UDPOS
2.CoNLL2000Chunking
五,问答
1.SQuAD 1.0
2.SQuAD 2.0
六,无监督学习
1.EnWik9
torchtext中带有常用的NLP数据处理工具和常用的数据集.
torchtext.datasets.AG_NEWS(root='.data', split=('train', 'test'))
其中:
root:指定数据集存放的位置(默认.data)
split:指定想要获取数据集的哪部分(默认('train','test')就是同时获取训练集和测试集)
AG_News包含超过1百万的新闻文章,四分类数据集,数据集的每一行为'新闻类别 新闻标题 新闻文本'的格式,训练集包含120000条样本,测试集包含7600条样本。
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.SogouNews(root='.data', split=('train', 'test'))
5分类数据集,训练集450000条样本,测试集60000条样本。搜狗新闻数据集,其中的汉语已经转换为拼音
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.DBpedia(root='.data', split=('train', 'test'))
14分类数据集,训练集560000,测试集70000.描述了458万个事物,5.83亿个事实
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.YelpReviewPolarity(root='.data', split=('train', 'test'))
2分类,训练集560000,测试集38000。用户评论
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.YelpReviewFull(root='.data', split=('train', 'test'))
5分类,训练集650000,测试集50000
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.YahooAnswers(root='.data', split=('train', 'test'))
10分类,训练集1400000,测试集60000,问题和答案
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.AmazonReviewPolarity(root='.data', split=('train', 'test'))
2分类,训练集3600000,测试集400000
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.AmazonReviewFull(root='.data', split=('train', 'test'))
5分类,训练集3000000,测试集650000
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.IMDB(root='.data', split=('train', 'test'))
2分类,训练集25000,测试集25000,每一行是情绪分类以及后面的评论文本
(亲测可以在代码中直接下载)
torchtext.datasets.WikiText2(root='.data', split=('train', 'valid', 'test'))
训练集36718,验证集3760,测试集4358,数据集中的每一行是一个词语
(亲测可以在代码中直接下载)
torchtext.datasets.WikiText103(root='.data', split=('train', 'valid', 'test'))
训练集1801350,验证集3760,测试集4358
(亲测可以在代码中直接下载)
torchtext.datasets.PennTreebank(root='.data', split=('train', 'valid', 'test'))
训练集42068,验证集3370,测试集3761
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.Multi30k(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))
language_pair:指定使用的翻译句子对的语言,默认是从德语(de)翻译到英语(en),数据集中的每一行是一对儿指定语言的句子对
(亲测可以在代码中直接下载)
torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))
(亲测在代码中无法直接下载,会出现网络连接问题)
torchtext.datasets.UDPOS(root='.data', split=('train', 'valid', 'test'))
训练集12543,验证集2002,测试集2077,每一行是一句话中的每个词,以及每个词的词性标注信息
(亲测可以在代码中直接下载)
torchtext.datasets.CoNLL2000Chunking(root='.data', split=('train', 'test'))
训练集8936,测试集2012
(亲测可以在代码中直接下载)
torchtext.datasets.SQuAD1(root='.data', split=('train', 'dev'))
训练集87599,测试集10570,每一行是一段短文,一个问题,问题的答案
(亲测可以在代码中直接下载)
torchtext.datasets.SQuAD2(root='.data', split=('train', 'dev'))
训练集130319,测试集11873
(亲测可以在代码中直接下载)
torchtext.datasets.EnWik9(root='.data', split=('train', ))
训练集13147026
(亲测可以在代码中直接下载)