python爬虫总结心得_自学Python十一 Python爬虫总结

通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性,试着去写个helper类以避免重复性劳动。

1.访问网站 #最简单的得到网页代码的方法

1 importurllib22 response = urllib2.urlopen("http://www.xx.com")3 print response.read()

2.伪装成浏览器(User-Agent,Referer等) #为了不被服务器禁止访问所以还是伪装成浏览器比较好

1 headers ={2 'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',3 'Referer':'http://www.xx.com/xx',4 'Accept':'application/javascript, */*;q=0.8'

5 }6 response = urllib2.Request(url = "http://www.xx.com",data = None,headers = headers)

3.Post数据转码

1 importurllib,urllib22 values ={3 'username':'xxx',4 'password':'xxx',5 'key':'xxx'

6 }7 postdata =urllib.urlencode(values)8 response = urllib2.Request(url

你可能感兴趣的:(python爬虫总结心得)