摘要：教你如何快速爬取一个网页信息；urllib模块中常用的方法介绍；通过修改头信息来伪装成浏览器访问页面；Get请求和Post请求的介绍

*写在前面：为了更好的学习python，博主记录下自己的学习路程。本学习笔记基于廖雪峰的Python教程，如有侵权，请告知删除。欢迎与博主一起学习Pythonヽ(￣▽￣)ﾉ *

常用内置模块

urllib

Urllib是Python内置的HTTP请求库，或者说，就是用来操作URL的。在爬虫的时候常用到这个库。

简单爬虫

要爬取网页信息，首先我们要引入urllib.request模块，这是一个请求模块。

然后通过urllib.request的urlopen( )方法来打开一个网页。

最后使用read( )方法来获取网页信息。

我们以百度http://www.baidu.com为例

import urllib.request
f = urllib.request.urlopen ('http://www.baidu.com')
data = f.read()

这样我们就获取了该网页的内容，此外，我们还要把它保存下来。

添加一个html文件，然后把data写进去：

import urllib.request
f = urllib.request.urlopen ('http://www.baidu.com')
data = f.read()

with open('./1.html','wb') as fh:
    fh.write(date)

此时，我们打开指定目录下的1.html，就能看到我们爬取的网页了。（是不是炒鸡简单(*￣︶￣)）

urlopen

我们都知道urlopen()函数是用来打开url的，实际上它参数不止url一个。

urllib.request.urlopen()函数参数介绍：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

常用的参数是前三个：url，data，timeout。

url 是需要打开的网址；
data 是需要传入的数据，一般在get请求方式使用；
timeout 是超时时间，当网络请求过慢，超过timeout设置的时间，就会给出异常，而不是一直等待结果。

urllib的常用方法

下面看一些简单常用的urllib用法。

方法	作用
info()	返回网页的当前环境有关信息
getcode()	返回网页状态码，若为200则正确，若为其他则错误
geturl()	返回网页的url
urllib.request.quote()	对网址进行编码
urllib.request.unquote()	对网址进行解码

例子：

>>>import urllib.request
>>>f = urllib.request.urlopen ('http://www.baidu.com')
>>>f.info()
Bdpagetype: 1 
Bdqid: 0x8915e4020002cb95 
...
Transfer-Encoding: chunked

>>>f.getcode()
200

>>>f.geturl()
http://www.baidu.com

>>>urllib.request.quote('http://www.baidu.com')
http%3A//www.baidu.com

>>>urllib.request.unquote('http%3A//www.baidu.com')
http://www.baidu.com

模拟浏览器

有时候，我们爬取网页的时候会出现错误，这是因为这些网页为防止恶意获取信息进行了反爬虫设置。

为避免这种情况，一般而言我们会模拟成浏览器去访问网页。

要模拟成浏览器，就需要添加Headers信息，即头信息。通过设置User-Agent可以让爬虫模拟成浏览器。

如何添加Headers信息呢？这里需要用到urllib模块中的urllib.request.Requset()函数。

调用urllib.request.Requset()函数可以创建一个request对象，调用时传入三个参数，第一个为url即网址信息，第二个为数据，默认为0，第三个为headers，即需要添加的头信息，要以dict类型传入，默认为不传头部。

随后，调用urllib.request.urlopen()打开request对象，就能实现模拟成浏览器访问网页了。

看一下具体的代码：

import urllib.request
 
url='http://www.baidu.com'                                     # 设置url的值

header={                                                       # 设置header的值
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'
}

request = urllib.request.Request(url, headers = header)        # 调用Request函数
data = urllib.request.urlopen(request).read()                  # 访问网页

with open('./1.html', 'wb') as fh:                             # 创建html文件并把数据保存下来
    fh.write(data)

还有个问题是怎么得到这个User-Agent的信息呢？

有个简单的方法：使用浏览器打开任意一个网页，按F12，在弹出的界面的上方找到Network，点击后会出现一些文件，点击其中的一个，点击右边的header，在里面就有User-Agent信息。

（参考下图进行操作(｀・ω・´)）

【Python入门】30.常用内置模块之 HTTP请求库urllib & 实现简单爬虫和自动登录微博_第1张图片

如何获取User-Agent

那么User-Agent表示什么呢？

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

标准格式为：浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息
——百度百科

Get请求（百度搜索关键字）

如果要进行客户端与服务器端之间的消息传递，我们可以使用HTTP协议请求进行。

在本节内容中介绍两种常用的请求：Get和Post。先来看一下Get请求。

Get请求，通过URL网址传递信息。我们可以把数据直接放在URL中，从而得到想要的信息。

以百度搜索为例子。

当我们用百度搜索Python时，仔细观察url会发现，其中有wd=Python的字段。

事实上，wd字段就是表示搜索的关键字，那么通过Get请求，就可以实现用爬虫自动使用百度搜索了：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import urllib.request

url='http://www.baidu.com/s?wd=' 
key=urllib.request.quote('三贝的博客')                   # 由于URL含有中文，需要编码
url_all=url+key
header={                                                # 头部信息
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'
}  
                                      
request = urllib.request.Request(url_all, headers=header)
data = urllib.request.urlopen(request).read()

with open('./search三贝的博客.html', 'wb') as f:        # 写入文件中
    f.write(data)

打开指定目录下的html文件，显示的就是搜索指定关键字的页面啦(￣▽￣)~*。

【Python入门】30.常用内置模块之 HTTP请求库urllib & 实现简单爬虫和自动登录微博_第2张图片

搜索三贝的博客

Post请求（登录新浪微博）

Post请求即向服务器发送数据，然后请求执行相应的操作。比如登录用户。

我们只要把需要发送的数据放进data里面，然后传进urlopen的data参数即可。

下面以登录新浪微博为例（以下代码除注释转自廖雪峰官网）：

from urllib import request, parse

print('Login to weibo.cn...')
email = input('Email: ')                    # 用户输入登录的邮箱名
passwd = input('Password: ')                # 用户输入登录的密码
login_data = parse.urlencode([              # 登录数据，用dict类型储存，parse.urlencode将dict转为url参数
    ('username', email),
    ('password', passwd),
    ('entry', 'mweibo'),
    ('client_id', ''),
    ('savestate', '1'),
    ('ec', ''),
    ('pagerefer', 'https://passport.weibo.cn/signin/welcome?entry=mweibo&r=http%3A%2F%2Fm.weibo.cn%2F')
])

req = request.Request('https://passport.weibo.cn/sso/login')  
req.add_header('Origin', 'https://passport.weibo.cn')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
req.add_header('Referer', 'https://passport.weibo.cn/signin/login?entry=mweibo&res=wel&wm=3349&r=http%3A%2F%2Fm.weibo.cn%2F')

with request.urlopen(req, data=login_data.encode('utf-8')) as f:
    print('Status:', f.status, f.reason)             # 返回页面执行的状态
    for k, v in f.getheaders():                      # 得到HTTP相应的头和JSON数据
        print('%s: %s' % (k, v))
    print('Data:', f.read().decode('utf-8'))         # 得到页面信息

如果登录成功(￣▽￣)／，我们获得的响应如下：

Status: 200 OK
Server: nginx/1.6.1
...
Set-Cookie: SSOLoginState=1535461471; path=/; domain=weibo.cn
...
Data: {"retcode":20000000,"msg":"","data":{...,"uid":"2237339025"}}

如果登录失败(Ｔ▽Ｔ)／，我们获得的响应如下：

...
Data: {"retcode":50011015,"msg":"\u7528\u6237\u540d\u6216\u5bc6\u7801\u9519\u8bef","data":{"username":"[email protected]","errline":665}}

小结

urllib提供的功能就是利用程序去执行各种HTTP请求。

关于Python爬虫的知识点还有很多，本节只是对urllib模块进行简单的介绍，供想Python入门的人儿学习，往后会有更详细的内容介绍ヾ(ｏ･ω･)ﾉ。

以上就是本节的全部内容，感谢你的阅读。

下一节内容：常用内置模块之 XML

有任何问题与想法，欢迎评论与吐槽。

和博主一起学习Python吧(￣▽￣)~*

【Python入门】30.常用内置模块之 HTTP请求库urllib & 实现简单爬虫 和 自动登录微博

目录