Python爬虫(二、urllib2的urlopen方法和Request请求对象)

1、urlopen:不能伪装成一个浏览器。

url:(统一资源定位符)要访问的url地址:

data:表示要往网页中传输的内容,即post请求。

timeout 设置过期时间,默认是180s.如果网页


import urllib2

def urlopen():

response = urllib2.urlopen('http://www.baidu.com')

html = response.read()

print html

if __name__ == '__main__'

urlopen()



response想用是一个类文件对象。

response.read():读取文件所有内容,返回字符串。

if __name__ == '__main__'

只有在本文件调用的时候,才执行


当urlopen 不能够处理一个response时。产生urlError.通常URLError在没有网络连接,或者服务器不存在的情况下产生,异常会带有‘reason属性’,是衣蛾不可变的数组,包含一个错误号和一个错误信息。

2、urllib2用一个Request对象来映射提出的http请求,。其最简单的使用方式是把要请求的地址创建一个Request对象通过调用URLopen并传入Request对象,将返回一个相关请求response对象。可以在response中用.read().











你可能感兴趣的:(Python爬虫(二、urllib2的urlopen方法和Request请求对象))