urllib2库的使用

所谓的网页抓取,就是吧url地址中指定的网络资源从网络流中读取出来,保存在本地。
其中,urlbil2库就可以实现。
urlb2是py2自带的模块,不需下载,导入即可使用。
(urllib2在py3中被改为了urllib.request)

代码1:

#coding=utf-8   
import urllib2  #引入库  

#urlopen方法是向指定的url地址发送请求,并且返回服务器响应的类文件对象
response = urllib2.urlopen('http://www.baidu.com')  

#类文件对象  支持  文件对象的操作方法,例如read()方法读取文件的全部内容,返回的是字符串。
html = response.read()

#打印字符串
print html

以上的代码返回的就是百度首页的HTML内容。
通过右键‘查看源代码’看到的内容和返回的代码是一样的。

Request

在代码1中,urlopen()的参数只有一个url地址。
但是为了完成更复杂的操作,比如增加HTTP报头,必须创建Request实例作为urlopen()的参数;而需要访问的url地址则作为Request实例的参数。
代码2:

#coding= utf-8
import urllib2

url = 'http://www.baidu.com'
#url作为Request方法的参数,构造并返回一个Request对象
request = urllib2.Request(url)

#Request对象作为urlopen方法的参数,发送给服务器并接受响应
response = urllib2.urlopen(request)

html = response.read()

print html

上述代码只是把参数url放在了Reuqest中实现而已。
注意: 新建的request实例,除了url参数之外还有设置另外两个参数:

  • 1.data(默认空):和url一起提交数据(比如要post的数据)。只有POST方式的时候使用这个参数。GET方法不用。

  • 2.headers(默认空):字典,包含需要发送的HTTP爆头的键值对

User-Agent:

urllib2默认的user-agent的头为Python-urllib/x.y(x和y是Python主版本和次版本号,例如 Python-urllib/2.7)。所以为了不被发现就需要一个新的‘身份’作为User-Agent。
添加Header信息
在HTTP Headers中添加特定的Header,来构造一个完整的HTTP请求消息。
可以通过Request.add_header()添加/修改一个特定的header,也可以用Request.get_header()来查看已有的headers。
添加一个特定的header
代码3:

import urllib2

url = "http://www.baidu.com"

#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
request = urllib2.Request(url, headers = header)

#通过调用Request.add_header() 添加/修改一个特定的header
#keep-alive表示长链接
request.add_header("Connection", "keep-alive")

# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")

response = urllib2.urlopen(request)

print response.code     #可以查看响应状态码
html = response.read()

print html

随机添加/修改一个user-agent:

import urllib2
import random
url = "http://www.ittop.cn"

ua_list = [
   "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
   "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
   "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
   "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]

user_agent = random.choice(ua_list)

request = urllib2.Request(url)

#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)

# 第一个字母大写,后面的全部小写
request.get_header("User-agent")

response = urllib2.urlopen(request)

html = response.read()
print html

你可能感兴趣的:(urllib2库的使用)