urllib2库的基本使用(一)


urllib2库的基本使用(一)



 Published On October 23, 2017

前言

   学习python的一个重要的应用就是在互联网上爬取数据, python有众多性能卓越使用方便的库可以来完成这个任务,urllib2就是其中一个。
   urllib2是python2.7 自带的一个库,不需要进行额外的安装,值得一提的是,urllib2在python3.X版本中,被改为urllib.request。
   python中还有一个很重要的库,urllib,但是要注意,urllib2并没有直接替代urllib。虽然urllib2提供了比urllib更丰富的功能,但是urllib2中没有urllib.urlencode函数。所以二者经常一起配合使用,至于为什么,我们会在后面进行介绍。

   下面我们开始介绍以下urllib2库的使用。注:代码编写平台为Windows+PyCharm

urlopen

   urlopen 的作用就是模拟浏览器访问一个url。我们知道,在浏览器地址栏输入url,敲回车之后,浏览器就会显示页面。url就是模拟了这个操作。 来看一段代码。

#! python2
# -*- coding:utf-8 -*-

import urllib2

# 向指定的url发送请求,并返回服务器的响应对象
response = urllib2.urlopen("http://www.baidu.com/")

# 调用对象方法,获取实体内容
html = response.read()

print html


   运行这段代码。
   从控制台输出的内容我们可以看到,这就是百度首页的所有内容。就这样简单,我们下载了一个html页面。
   如果我们在游览器上直接右键,选择查看网页源代码,那么看到的会是同样的结果。
   当然,也可以在本地新建一个html文本文档,将控制台输出的内容复制到该文本中,然后在浏览器中打开,也是同样的效果。

Request

   如果没有详细的接触过开发的话,很少有人知道,当我们输入URL敲下回车的一瞬间到底发生了什么。如果要详细解释的话,免不了长篇大论,我们将其总结为两步,第一步,发起Request请求到服务器,第二步,接受服务器的响应response。我们可以在浏览器的调试模式中很清楚地看到这两个步骤。
  在urlopen小节的例子中,urlopen只是打开了一个url,并没有向url传递任何参数,但是我们知道,互联网访问时,需要传递很多的参数的,那么在urllib2中该如何传递呢?我先来看下面这样一段代码。


#! python2
# -*- coding:utf-8 -*-

import urllib2

# url作为参数,构造并返回了一个Request对象
request = urllib2.Request("http://www.baidu.com/")

#将request对象作为urlopen的参数传入,接收服务器的响应,返回response对象
response = urllib2.urlopen(request)

# 调用对象方法,获取实体内容
html = response.read()

print html

  通过控制台输出的内容,不难发现,这次输出的内容与urlopen的例子输出的结果是一致的。既然结果是一样,但是我们还是根据Request对象来访问,到底有什么好处呢!那是因为,Request不仅能够访问url,同时还能够传递两个基本参数

  • data(默认空):是伴随 url 提交的数据(比如要post的数据),同时 HTTP 请求将从”GET”方式 改为 “POST”方式。如果没有制定data,则请求方式默认给”GET”。关于”GET”方式和”POST”方式的形式与区别,我们会在后面进行详细的介绍。
  • headers(默认空):这是一个字典类型的参数,包含了需要发送的HTTP报头的键值对。

User-Agent

我们首先来看下面这样两张图,观察一下有什么区别。注:抓包工具为Fiddler 正常访问百度的Request Headers

使用urlopen访问百度的Request Headers

   从上面两图看来,两个图中都包含的字段,有一个比较明显的区别就是”User-Agent”差别比较大。而且使用urlopen访问百度的”User-Agent”直接就是”Python-urllib/2.7”。    “User-Agent”,是标识浏览器身份的一个标志。也就是说,我们使用不同的浏览器去访问互联网资源的时候,那些web服务是可以轻松的知道,我们的访问方式的。但是如果我们直接使用”Python-urllib/2.7”作为请求头去访问互联网资源,那岂不是在告诉别人,我就是在用python爬取你们的网站!所以在实际的使用中,我们要伪装成真正的浏览器去做这样的操作。
   关于User-Agent,有很多的种类,纷繁复杂,不仅可以模拟浏览器,还可以模拟移动端,可以参考如下地址:User-Agent集合

#! python2
# -*- coding:utf-8 -*-

import urllib2

url = "http://www.baidu.com/"

ua_header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"}
# url和ua_header,作为请求参数,构造返回了Request
request = urllib2.Request(url, headers=ua_header)

# 将request对象作为urlopen的参数传入,接收服务器的响应,返回response对象
response = urllib2.urlopen(request)

# 调用对象方法,获取实体内容
html = response.read()

print html


在Header中添加更多的请求头信息

在上面的例子我们,我们看到,”headers” 是一个字典类型的数据,既然这样的话,不仅可以添加”User-Agent”,我们还可以添加许多其他的Header信息。


#! python2
# -*- coding:utf-8 -*-

import urllib2
import random

url = "http://www.baidu.com/"

ua_list = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
]
# 随机选择User-Agent
user_agent = random.choice(ua_list)

request = urllib2.Request(url)

# 添加user-agent
request.add_header("User-Agent", user_agent)
# 将访问请求设置为长连接
request.add_header("Connection", "keep-alive")
# 如果指定,默认是identify
# gzip是压缩格式,能够加速访问速度,但是对于爬虫来说,最好不要压缩,否则我们可能获取不到想要的数据
request.add_header("Accept-Encoding", "gzip, deflate, br")
# 将request对象作为urlopen的参数传入,接收服务器的响应,返回response对象
response = urllib2.urlopen(request)

# 调用对象方法,获取实体内容
html = response.read()

print html


运行程序,会发现控制台输出的内容不能正常显示了,这是因为我们加入了”Accept-Encoding”这个请求头。

博客转自曲良同学 http://www.pojun.tech

你可能感兴趣的:(曲良同学)