fetch_20newsgroups函数介绍

 

目录

 

     简介

       数据集特征

       Topic Categories(20个)

       Loaders

       定义使用20 newsgroups

       常用语料库方法


     简介

       20 newsgroups数据集包括18000多篇新闻文章,涉及到20个Topic(话题),所以称作20 newsgroups text dataset,分为两部分:训练集测试集。由Ken Lang收集,是用在机器学习实验国际标准数据集之一,例如比较流行于文本分类聚类实验。

       数据集特征

特征 特征值
Classes(Topic\Categories,话题) 20
Samples total  18846
Dimensionality   1
Features  text

       Topic Categories(20个)

   

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

       Loaders

       这个模块包括2个Loaders:

  • sklearn.datasets.fetch_20newsgroups

       它返回一个raw text。可使用extractor提取特征向量。

  • sklearn.datasets.fetch_20newsgroups.vectorized 

       它返回一个read_to_use features(可读可用的特征向量)。不需要使用extractor。

       定义使用20 newsgroups

#导入数据包
#定义训练数据集
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

       常用语料库方法

  • newsgroups_train.DESCR
  • newsgroups_train.data
  • newsgroups_train.target
  • newsgroups_train.target_names
  • newsgroups_train.filenames

       查看描述信息

newsgroups_train.DESCR

       查看详细数据

newsgroups_train.data

       查看Categories索引

newsgroups_train.target

       输出如下

array([7, 4, 4, ..., 3, 1, 8])

       查看Categories

#查看数据集名称(20个)
newsgroups_train.target_names

       输出如下

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

       查看文件位置信息

newsgroups_train.filenames

       输出如下

array(['/root/scikit_learn_data/20news_home/20news-bydate-train/rec.autos/102994',
       '/root/scikit_learn_data/20news_home/20news-bydate-train/comp.sys.mac.hardware/51861',
       '/root/scikit_learn_data/20news_home/20news-bydate-train/comp.sys.mac.hardware/51879',
       ...,
       '/root/scikit_learn_data/20news_home/20news-bydate-train/comp.sys.ibm.pc.hardware/60695',
       '/root/scikit_learn_data/20news_home/20news-bydate-train/comp.graphics/38319',
       '/root/scikit_learn_data/20news_home/20news-bydate-train/rec.motorcycles/104440'],
      dtype=' 
  

你可能感兴趣的:(NLP,python,自然语言处理,sklearn,语言模型,nlp)