用pyspider爬取乌云zone的贴子,上手非常地快速 动后河 (☭) [白帽子] | 2016-04-04 12:55

首先要安装pyspider,有现成的docker容器
binux/pyspider
第一步:打开chrome develop tools,右键copy as cURL,粘贴到
self.crawl("这里")
第二步,点run,左边出现
fetch": {
    "headers": {
      "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
      "Accept-Encoding": "gzip, deflate, sdch",
      "Accept-Language": "zh-CN,zh;q=0.8",
      "Cache-Control": "no-cache",
      "Connection": "keep-alive",

这就是整理好的headers了,有选择地把它复制粘贴到右边crawl_config里
好了,上手非常快速,这么一个需要登录才能爬取的网站就可以开始爬了
用pyspider爬取乌云zone的贴子,上手非常地快速 动后河 (☭) [白帽子] | 2016-04-04 12:55_第1张图片
上手超快有没有?

收藏 感谢(0)
分享到: 0
10 个回复
  1. 1# 动后河 (☭) | 2016-04-04 13:09

    开始爬zone全站的贴子
    屏幕快照 2016-04-04 下午1.08.16.png
    用pyspider爬取乌云zone的贴子,上手非常地快速 动后河 (☭) [白帽子] | 2016-04-04 12:55_第2张图片

  2. 2# 随风的风 (静,以修身:() | 2016-04-04 13:24

    http://zone.wooyun.org/search/%E5%93%88%E5%93%88

  3. 3# 动后河 (☭) | 2016-04-04 13:51

    @随风的风 这个搜索功能太差了,我想自己爬完做个搜索

  4. 4# prolog (事了拂衣去,不收一分钱) | 2016-04-04 16:23

    做成电子书共享下呗。。

  5. 5# 廷廷 (想法最重要) | 2016-04-06 21:21

    没懂怎么弄了··搭好了pyspider

  6. 6# HackPanda | 2016-04-07 00:17

    哈哈 这个可以直接import os

  7. 7# 0223 (单纯大型工具党) | 2016-04-07 00:34

    @动后河 请教下,怎么爬取百度搜索结果76页之后的?

  8. 8# 动后河 (☭) | 2016-04-07 20:15

    @prolog 爬完了,json格式,真要你就发邮箱

  9. 9# 动后河 (☭) | 2016-04-07 20:18

    @0223 百度有限制,限制只显示多少页的结果的吧

  10. 10#
    回复此人 感谢
    0223 (单纯大型工具党) | 2016-04-08 23:55

    @动后河 是啊。就是看有没绕过的。

你可能感兴趣的:(用pyspider爬取乌云zone的贴子,上手非常地快速 动后河 (☭) [白帽子] | 2016-04-04 12:55)