我们在用python 写爬取网页程序的时候,最常用的包就是 urllib,urllib ,cookie ,re
这几天一直在自学这方面的东西,主要是想爬取QQ空间的日志,无奈。。还没成功;
虽然python在语法上很容易上手, 但是真实写爬虫程序的时候,费了老大的力气,还是先小小的总结一下吧:
1, 最简单的
对于很多普通网页,获取源码直接一句话就可以:
#test.py import urllib2 #url='********' url='http://www.baidu.com' page=urllib2.urlopen(url).read() print page
现在好多网站都反爬虫,比如说 csdn ,用上面的程序就不行了;这样我们可以采取伪装成一般浏览器的的方法来爬取;
修改一下headers ,【header是一个字典映射】这个headers可以通过第三方插件来获取,比如,火狐浏览器的httpfox , 在打开那个网站的前,运行插件,之后再打开的过程中
会发现数据包的流动啊,headers,cookies各种信息; 设计好自己的headers之后,就可以模仿浏览器登录了:可以这样:
import urllib2 url='http://blog.csdn.net/shomy_liu' headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0' } req= urllib2.Request(url=url,headers=headers) page= urllib2.urlopen(req).read() print page后面还有对于某些需要填表单登陆的后续好好学习一下: