python爬虫学习(2)——网页下载器与urllib2模块

    本机环境使用的是python2.7.x,自带urllib2模块,不需要对拓展包进行安装,因此,直接import utllib2即可。

    urllib2下载网页的内容,其实是将网络中返回给浏览器的前端代码,包括html,js等内容收集过来。因此,我们得到的其实是一段包含html、js代码内容组成的字符串。

    使用urllib2下载网页内容可以选择如下几种方式:

(1)直接下载

本方法适用于不需要用户输入任何信息的网页,例如获取百度首页的信息或某大学首页的信息。直接提供一个真实可靠的网址即可获取内容。

当你输入这几行代码,并且getcode返回的是200,那么证明你下载内容成功了。

response.read()

输出你获得的内容

python爬虫学习(2)——网页下载器与urllib2模块_第1张图片

类似这样的字符串,是其所返回的代码内容。

(2)添加header等内容的url


python爬虫学习(2)——网页下载器与urllib2模块_第2张图片
来自慕课网

有时一些网站只支持浏览器发送出的请求,所以需要将爬虫伪装成浏览器,因此要在header中添加相应的参数。


(3)添加特殊情景的下载器


python爬虫学习(2)——网页下载器与urllib2模块_第3张图片
来自慕课网


python爬虫学习(2)——网页下载器与urllib2模块_第4张图片

cj为获得的cookie的内容

你可能感兴趣的:(python爬虫学习(2)——网页下载器与urllib2模块)