爬虫框架pyspider - 快速上手

爬虫框架pyspider - 快速上手

pyspider是国人开发的一款灵活便捷的爬虫框架, 相较于Scrapy框架来说, pyspider更适合被用于中小规模的爬取工作

了解更多: 爬虫框架pyspider个人总结(详细)熟悉

安装说明

pyspider

使用命令安装: pip install pyspider

使用 Ubuntu 安装时需要先装依赖包

(升级pip后执行命令)
sudo apt-get install libssl-dev libcur14-openssl-dev python-dev
sudo apt-get install libxml2-dev libxslt1-dev python-dev

安装报错或运行错误请参考文章: pyspider 收纳一些常见问题

如需使用国内的pip源请参考: 更换pip源到国内镜像

phantomjs

安装phantomjs请参考: phantomjs下载安装与使用

快速上手

安装之后先验证是否可以正常使用

  1. 打开控制台, cd到你要创建的项目路径

  2. 输入pyspiderpyspider all

  3. 当看到如下信息时说明pyspider启动成功

    (base) D:\pyspider_test\test1>pyspider
    c:\users\zh\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform.
      warnings.warn("timeout is not supported on your platform.", Future
    Warning)
    [I 191030 19:27:06 result_worker:49] result_worker starting...
    [I 191030 19:27:06 processor:211] processor starting...
    [I 191030 19:27:06 tornado_fetcher:638] fetcher starting...
    [I 191030 19:27:06 scheduler:647] scheduler starting...
    [I 191030 19:27:06 scheduler:782] scheduler.xmlrpc listening on 127.
    0.0.1:23333
    [I 191030 19:27:06 scheduler:126] project douban_top250 updated, sta
    tus:TODO, paused:False, 0 tasks
    [I 191030 19:27:06 scheduler:586] in 5m: new:0,success:0,retry:0,fai
    led:0
    [I 191030 19:27:07 app:76] webui running on 0.0.0.0:5000
    phantomjs fetcher running on port 25555
    
    

    如果失败请参考: https://blog.csdn.net/makesomethings/article/details/102787469

  4. 打开浏览器, 访问http://localhost:5000/, 进入pyspider控制台

  5. 点击Create, 输入项目名(Project Name)和要爬取的目标网站(Start URL(s))

  6. 你将会看到这样一个页面: 爬虫框架pyspider - 快速上手_第1张图片

  7. 代码区没有自动补全功能, 你可以在pycharm上写好粘过来, 再进行调试, 以www.baidu.com为例
    爬虫框架pyspider - 快速上手_第2张图片

  8. 调试好之后, 回退到主页面, 将状态改为DEBUG就可以运行爬取工作了
    爬虫框架pyspider - 快速上手_第3张图片

  9. 你可以通过把鼠标放到progress中的4个进度条上以查看执行状态详情, 当all变成纯绿色, 就代表爬虫执行完毕

  10. 点击Results, 可以查看你爬取到的内容

删除项目

第一种方法,将目标项目的status改成STOP,然后点击[group],输入delete,如图,
在这里插入图片描述
pyspider会在24H后自动删掉这个项目

第二种方法,到你创建项目的文件夹,删除data文件夹,就会删除当前文件夹中所有的项目

参考文章

pyspider英语手册:http://docs.pyspider.org/

你可能感兴趣的:(爬虫笔记)