PyTorch torchtext中带有的自然语言处理数据集

目录

一.文本分类数据集

1.AG_News

2.SogouNews

3.DBpedia

4.YelpReviewPolarity

5.YelpReviewFull

6.YahooAnswers

7.AmazonReviewPolarity

8.AmazonReviewFull

9.IMDB

二,语言模型

1.WikiText-2

2.WikiTest103

3.PennTreebank

三,机器翻译

1.Multi30k

2.IWSLT2016

3.IWSLT2017

四,序列标注

1.UDPOS

2.CoNLL2000Chunking

五,问答

1.SQuAD 1.0

2.SQuAD 2.0

六,无监督学习

1.EnWik9


torchtext中带有常用的NLP数据处理工具和常用的数据集.

一.文本分类数据集

1.AG_News

torchtext.datasets.AG_NEWS(root='.data', split=('train', 'test'))

其中:

root:指定数据集存放的位置(默认.data)

split:指定想要获取数据集的哪部分(默认('train','test')就是同时获取训练集和测试集)

AG_News包含超过1百万的新闻文章,四分类数据集,数据集的每一行为'新闻类别 新闻标题 新闻文本'的格式,训练集包含120000条样本,测试集包含7600条样本。

(亲测在代码中无法直接下载,会出现网络连接问题)

2.SogouNews

torchtext.datasets.SogouNews(root='.data', split=('train', 'test'))

5分类数据集,训练集450000条样本,测试集60000条样本。搜狗新闻数据集,其中的汉语已经转换为拼音

(亲测在代码中无法直接下载,会出现网络连接问题)

3.DBpedia

torchtext.datasets.DBpedia(root='.data', split=('train', 'test'))

14分类数据集,训练集560000,测试集70000.描述了458万个事物,5.83亿个事实

(亲测在代码中无法直接下载,会出现网络连接问题)

4.YelpReviewPolarity

torchtext.datasets.YelpReviewPolarity(root='.data', split=('train', 'test'))

2分类,训练集560000,测试集38000。用户评论

(亲测在代码中无法直接下载,会出现网络连接问题)

5.YelpReviewFull

torchtext.datasets.YelpReviewFull(root='.data', split=('train', 'test'))

5分类,训练集650000,测试集50000

(亲测在代码中无法直接下载,会出现网络连接问题)

6.YahooAnswers

torchtext.datasets.YahooAnswers(root='.data', split=('train', 'test'))

10分类,训练集1400000,测试集60000,问题和答案

(亲测在代码中无法直接下载,会出现网络连接问题)

7.AmazonReviewPolarity

torchtext.datasets.AmazonReviewPolarity(root='.data', split=('train', 'test'))

2分类,训练集3600000,测试集400000

(亲测在代码中无法直接下载,会出现网络连接问题)

8.AmazonReviewFull

torchtext.datasets.AmazonReviewFull(root='.data', split=('train', 'test'))

5分类,训练集3000000,测试集650000

(亲测在代码中无法直接下载,会出现网络连接问题)

9.IMDB

torchtext.datasets.IMDB(root='.data', split=('train', 'test'))

2分类,训练集25000,测试集25000,每一行是情绪分类以及后面的评论文本

(亲测可以在代码中直接下载)

二,语言模型

1.WikiText-2

torchtext.datasets.WikiText2(root='.data', split=('train', 'valid', 'test'))

训练集36718,验证集3760,测试集4358,数据集中的每一行是一个词语

(亲测可以在代码中直接下载)

2.WikiTest103

torchtext.datasets.WikiText103(root='.data', split=('train', 'valid', 'test'))

训练集1801350,验证集3760,测试集4358

(亲测可以在代码中直接下载)

3.PennTreebank

torchtext.datasets.PennTreebank(root='.data', split=('train', 'valid', 'test'))

训练集42068,验证集3370,测试集3761

(亲测在代码中无法直接下载,会出现网络连接问题)

三,机器翻译

1.Multi30k

torchtext.datasets.Multi30k(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))

language_pair:指定使用的翻译句子对的语言,默认是从德语(de)翻译到英语(en),数据集中的每一行是一对儿指定语言的句子对

(亲测可以在代码中直接下载)

2.IWSLT2016

torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')

(亲测在代码中无法直接下载,会出现网络连接问题)

3.IWSLT2017

torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))

(亲测在代码中无法直接下载,会出现网络连接问题)

四,序列标注

1.UDPOS

torchtext.datasets.UDPOS(root='.data', split=('train', 'valid', 'test'))

训练集12543,验证集2002,测试集2077,每一行是一句话中的每个词,以及每个词的词性标注信息

(亲测可以在代码中直接下载)

2.CoNLL2000Chunking

torchtext.datasets.CoNLL2000Chunking(root='.data', split=('train', 'test'))

训练集8936,测试集2012

(亲测可以在代码中直接下载)

五,问答

1.SQuAD 1.0

torchtext.datasets.SQuAD1(root='.data', split=('train', 'dev'))

训练集87599,测试集10570,每一行是一段短文,一个问题,问题的答案

(亲测可以在代码中直接下载)

2.SQuAD 2.0

torchtext.datasets.SQuAD2(root='.data', split=('train', 'dev'))

训练集130319,测试集11873

(亲测可以在代码中直接下载)

六,无监督学习

1.EnWik9

torchtext.datasets.EnWik9(root='.data', split=('train', ))

训练集13147026

(亲测可以在代码中直接下载)

你可能感兴趣的:(算法,pytorch,自然语言处理,深度学习)