urllib模块提供了一些高级接口,用于编写需要与HTTP服务器交互的客户端。典型的应用程序包括从网页抓取数据、自动化、代理、网页爬虫等。
在Python 2中,urllib功能分散在几个不同的库模块中,包括urllib、urllib2、urlparse等。在Python 3中,所有功能都合并在urllib包中。
要抓取html网页,很简单
import urllib2 response=urllib2.urlopen('http://www.google.com')
urlopen创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径,一般是网址。如果要执行更加复杂的操作,如修改HTTP报头,可创建Request实例并当为url参数使用;参数data表示以post方式提交到url的数
据,需要经过URL编码;timeout是可选的超时选项。urlopen返回 一个类文件对象,他提供了如下方法:
>>> response.getcode() 200 >>> response.geturl() 'http://www.google.com.hk/'
info()返回的mimetools.Message映射对象有headers、getheader()、getplist() 、getparam()等方法。
message=response.info() message.headers #返回http报头信息的列表 for header in message: print header,message.getheader(header) #获取报头信息 for header in message: print header,message[header] #message可用字典的方法分析 message.getparam('charset') #获取url编码
urllib中还提供了一些方法,用于对url进行编码、解码。url中是不能出现一些特殊的符号的,有些符号有特殊的用途。
urllib.quote()
使用适合URL内容的转义序列替换string中的特殊字符。字母、数字、下划线(_)、逗号(,)、句号(.)、连字符(-)都保持不变。其他字符转换成%xx形式的转义序列,默认使用utf-8编码。
urllib.unquote()
解码
urllib.urlencode(query)
将query中的查询值转换成一个URL编码的字符串。query可以是一个字典,也可以是一个(key,value)的对序列。得到的是以'&'字符分割的'key=value'对序列。
import urllib form_data={'user':'jhon','passwd':'123456'} #要提交的表单数据 url_data=urllib.urlencode(form_data) #url_data被编码为'passwd=123456&user=jhon' full_url='http://www.example.com'+'?'+url_data u=urllib2.urlopen(full_url)
Request实例可以替代urlopen(url)中的url来实现更加复杂的操作。headers是一个字典,包含了可表示HTTP报头内容的键值映射。
有一些网站不希望被某些程序浏览或者针对不同的浏览器返回不同的版本。默认情况下,urlib2把自己识别为Python-urllib/x.y(这里的 xy是python发行版的主要或次要的版本号,如,
Python-urllib/2.7)。浏览器区别自身的方式是通过User-Agent头。如果要模拟chrome浏览器连接:
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36'} r=urllib2.Request("http://www.google.com",headers=headers) u=urllib2.urlopen(r)
要处理cookie的时候,注意不要在Request里面设置headers,因为cookie也在headers里面,设置headers会将cookie覆盖掉。
可以用Request().add_header(key,value)方法。
import urllib2 import cookielib cookie=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) r=urllib2.Request('http://www.google.com') r.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36') u=opener.open(r)