python网络爬虫初步

我们在用python 写爬取网页程序的时候,最常用的包就是 urllib,urllib ,cookie ,re

这几天一直在自学这方面的东西,主要是想爬取QQ空间的日志,无奈。。还没成功;

虽然python在语法上很容易上手, 但是真实写爬虫程序的时候,费了老大的力气,还是先小小的总结一下吧:

1, 最简单的

对于很多普通网页,获取源码直接一句话就可以:

#test.py
import urllib2
#url='********'
url='http://www.baidu.com'
page=urllib2.urlopen(url).read()
print page

2,反爬虫的

现在好多网站都反爬虫,比如说 csdn ,用上面的程序就不行了;这样我们可以采取伪装成一般浏览器的的方法来爬取;

修改一下headers ,【header是一个字典映射】这个headers可以通过第三方插件来获取,比如,火狐浏览器的httpfox  , 在打开那个网站的前,运行插件,之后再打开的过程中

会发现数据包的流动啊,headers,cookies各种信息; 设计好自己的headers之后,就可以模仿浏览器登录了:可以这样:

import urllib2
url='http://blog.csdn.net/shomy_liu'
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0'
    }

req= urllib2.Request(url=url,headers=headers)

page= urllib2.urlopen(req).read()
print page
后面还有对于某些需要填表单登陆的后续好好学习一下:



你可能感兴趣的:(python)