Scrapy中用cookie模拟登陆新浪微博

最近想做一个微博的搜索页文本分析的小项目,因为开放平台里这个api的限制略多,决定进入爬虫坑自己动手.

之前久闻Scrapy大名,尝试了一下,抓取网页甚是好用,避免了许多HTTP方面的繁琐处理.不过还是卡在了登陆这一步上.

一般模拟登陆有两种方式,一个是抓登陆时的包,然后模拟所需数据发送过去.由于新浪经常改参数和加密方式,这个方法费时费力.另一种就是直接发送cookie.

在Scrapy中具体实现时,就是在爬取的spider类中,重载start_requests方法,生成一个带cookie的request,后续爬取的request同样需要带上cookie.

一个爬取单个搜索结果网页并存储的简单spider代码如下:

#coding = utf-8

from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request


class WeiboSpider(CrawlSpider):
    name = 'weibo'
    allowed_domains = ['weibo.com', 'sina.com.cn']

    def start_requests(self):
        url = 'http://s.weibo.com/weibo/'+keyword+'?page=2' #keyword为需要搜索的关键词,此处加上page=2易于测试是否成功登陆,因为搜索结果第二页未登录时是看不到的
        print url

        return [Request(url=url, method='get', callback=self.afterparse, cookies={'UOR':'book.51cto.com,widget.weibo.com,login.sina.com.cn',...}, 
        headers={'Host': 's.weibo.com', 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:39.0) Gecko/20100101 Firefox/39.0', 
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
  'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Accept-Encoding': 'gzip, deflate', 'DNT': '1', 'Referer': '...', 
        'Connection': 'keep-alive', 'Cache-Control': 'max-age=0'})]
  #此处,cookies中填入新浪登陆cookies的所有键值对,稳妥起见,headers也需要伪装一下,填入登陆时浏览器发送的header信息
    
    def afterparse(self, response):
        filename = response.url.split("/")[-2]
        with open(filename, 'wb') as f:
            f.write(response.body)

当时遇到的一个主要问题是如何获取cookies,建议在火狐里下一个firebug,打开网络面板,然后登陆新浪微博,在网络面板里各个包中找到weibo.com,打开请求header,将除cookie外其他信息填入代码中headers的位置,cookie按分号拆成多个键值对,填入cookies中.

好了,在afterparse这个函数里处理一下爬取的网页,开命令行测试,done!

下一篇会写一下借助beautiful soup把所需数据从js框架中解构出来的流程.

你可能感兴趣的:(Scrapy中用cookie模拟登陆新浪微博)