Python机器学习经典实例(一) fetch_20newsgroups无法下载问题解决

问题描述:
在Python机器学习经典实例中要使用到新闻相关预料,但是在下载过程中碰到各种问题,现在把解决办法给出:
运行过程中的输出:
Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)

下面过程很慢,经常下载不下来;
即使下载下来,出现如下问题:
PermissionError: [Errno 13] Permission denied: ‘C:\Users\XXXXX\scikit_learn_data\20news_home’

XXXXX表示我的用户名。

查询了网络,没有找到相关的解决办法,只好自己琢磨解决。

解决办法如下:
1)下载20news-bydate.tar.gz
2)下载20news-bydate.pkz
以上两个文件直接在网络上搜索,有很多链接的。

3)在~\scikit_learn_data\20news_home 下解压20news-bydate.tar.gz,有2个目录: 20news-bydate-test和20news-bydate-train
~表示什么就不用多说了吧。

4)拷贝20news-bydate.pkz到~\scikit_learn_data\下面,并改名为:20news-bydate_py3.pkz
这就是最关键的一步,一定要改名。

然后运行程序,顺利输出答案:
Dimensions of training data: (2968, 40605)

Input: The curveballs of right handed pitchers tend to curve to the left
Predicted category: Baseball

Input: Caesar cipher is an ancient form of encryption
Predicted category: Cryptography

Input: This two-wheeler is really good on slippery roads
Predicted category: Motorcycles

在阅读《python机器学习经典实例》中发现书上有一些不对的地方,一直没有记录下来,那就从现在开始吧。

你可能感兴趣的:(python机器学习,python,机器学习,分析文本数据)