scrapy抓取名人名言

roots.txt文件解读
通过一天多的努力,我终于成功搭建好了云服务器上的各种环境并去抓取了数据。在这个过程中,我先用了MobaXterm,后改用了Xshell。
*1. MobaXterm使用体验

scrapy抓取名人名言_第1张图片
MobaXterm首页.png

MobaXterm是一个很方便的软件,它免安装,连接迅速,并且代码书写界面美观。
scrapy抓取名人名言_第2张图片
连接云服务器.png

然而,在我使用了一段时间后,也发现了它的一些瑕疵。MobaXterm连接是不太稳定的,即使我更改过了设置,情况也没有改善。
scrapy抓取名人名言_第3张图片
alive设置.png

除此之外,我还遇上了上传文件权限不足的问题
scrapy抓取名人名言_第4张图片
文件操作权限不足.png

通过,多方查找,这是由于新用户并没有获得对文件进行操作的权限,这可以通过

sudo chmod 777 spiders(文件名)

命令来赋予用户权限。

*2. Xshell使用体验
相较于MobaXterm而言,Xshell需要安装


scrapy抓取名人名言_第5张图片
安装Xshell.png

连接云服务器成功界面


scrapy抓取名人名言_第6张图片
连接云服务器.png

但是,Xshell连接较稳定,页面简单。上传下载文件,Xshell需要安装Xftp软件,安装过后,我上传下载文件并没有受到权限限制,
scrapy抓取名人名言_第7张图片
下载文件.png

总的来说,就界面设计而言,我更喜欢MobaXterm,但是就使用体验来说,我更倾向由于Xshell。

*3. 抓取数据存成json格式并转换为xml
当在本地编写好spiders文件后(我使用的是Notepad++),将其上传到spiders目录下,执行scrapy crawl quot(爬虫名字)命令


scrapy抓取名人名言_第8张图片
代码.png

scrapy抓取名人名言_第9张图片
数据存储为json格式.png

我需要将爬取下来的数据存成json文件格式,使用以下命令:

scrapy crawl qout -o aaa.json

其中qout是爬虫名称,aaa.json是你想保存的json文件名称。爬取结束后,我们可以在spiders目录下看到新生成的aaa.json文件。


scrapy抓取名人名言_第10张图片
文件.png

接下来,可以用

sz aaa.json(文件名)

命令来下载该文件。下载下来的json文件里数据很多,所以,我找了一个比较投机取巧的方式来将它转换成xml格式。
JSON与XML互转这个网站能够将json与xml进行相互转换。
我抓取的json文件与转换后的xml文件:json文件与xml

你可能感兴趣的:(scrapy抓取名人名言)