Python爬虫入门笔记(一)

一、什么是爬虫


简单讲就是将网页中的数据下载到本地。

二、如何获取网页


既然要将网页中的数据下载下来,那我们是不是应该先打开一个网页呢,就像在浏览器中输入url地址,然后就获得一个网页。

如何打开呢?

这里我们需要安装requests库,通过“命令提示符“进入cmd,然后输入“pip install requests”,安装成功后,我们就可以使用它来打开一个网页了。

requests的用法点击这里  

返回200代表访问成功,接着我们将网页源代码打印出来

好像和原网页不太一样,怎么回事呢?原来是编码的问题。我们将编码改变一下,然后再看看。


ok,网页获取成功,完整代码。


三、总结


Response对象的属性

r.status_code:HTTP请求的返回状态。

r.encoding:从HTTP header中猜测的响应的内容编码方式。

r.apparent_encoding:从内容中分析出的响应内容编码方式。

r.text:HTTP响应内容的字符串形式。

r.content:HTTP响应内容的二进制形式。

你可能感兴趣的:(Python爬虫入门笔记(一))