Python网络爬虫与信息提取入门<3>

Part15:实例1 ：京东商品页面的爬取

首先打开京东的页面，这里面我们选取一款华为手机，我们可以看到这个商品的url链接。我们要做的是通过写程序，通过这个链接获得这个商品的相关信息，下面我们打开IDLE一起试试。首先我们加载requests库

Part16:实例2：亚马逊商品页面的爬取

首先我们找到中国亚马逊的网站找到一本书，我们可以看一下他的链接。他的URL比京东的更为复杂，这里面我们去书的或商品的URL信息。我们要通过requests库实现对这个商品的爬取。

我们一起来来看一看这个代码：

第一行引入requests库

第二行运用get方法来获得这个商品的相关信息

第三行返回信息的状态码，看看是不是200，很奇怪状态码是503，说明出现了错误。下面我们来看看访问出现了什么错误。我们可以查看他的编码。

r.encoding是ISO-8859-1，我们把它改成可以阅读的编码形式，然后我们看一下返回的文本。

我们可以看到文本当中出现了意外错误四个字。同事我们可以看到英文字体中出现了关于API的信息，似乎亚马逊在告诉我们你的访问出现了错误，但是这个错误是API造成的。

事实上，如果我们能从服务器获得真正的相关的页面信息回来，那么这个错误已经不是网络出现的错误，那为什么亚马逊给我们返回这个页面呢？这是我们要回想一下我们曾经学过的内容，很多网站对网络爬虫有限制，那么对网络爬虫的限制无外乎有两种方法，第一种方法通过Robots协议告知，第二种方法是通过判断访问网站的HTTP的头部信息来查看你的访问是不是由一个爬虫引起的。网站一般接受的是由浏览器引发的或产生的HTTP请求，而对于爬虫的请求网站是可以拒绝的。那么是不是这样呢？我们再来看一看。我们说requests库的reponse对象，也就是那个r，get返回的那个对象，它包含requests请求，所以我们可以通过r.requests.headers来查看我们发给亚马逊的requests的头部到底是什么内容。

我们可以看到在头部中有一个字段叫user-agent,他写的是python-requests.2.11.1，这说明我们的爬虫忠实的告诉了亚马逊的服务器这次的访问是由一个python的requests库的程序产生的。那么亚马逊通过来源审查，就可以产生这样的一个错误，或者亚马逊不支持这样的访问。大家还记得我们学requests库的时候，我们可以更改头部信息，那么下面我们来试试我们的程序能不能去模拟一个浏览器向亚马逊发送一个请求，这里面我们首先构造一个键值对：

这样一个键值对说明的是我们重新定义一个user-agent的内容是Mozilla/5.0。Mozilla/5.0说明的是这个时候的user-agent可能是一个浏览器，因为Mozilla/5.0是一个很标准的浏览器的一个身份标识的字段。

然后我们再去找到刚才的url的链接，下面我们再去用get函数来去访问这个url，但这个时候我们要去将headers字段的user-agent做相关的修改。然后查看一下status_code,我们可以看到这个时候的返回状态是200.说明我们真真正正的获得了一个产品的页面。

下面我们验证一下我们的结论，这个时候我们看一下r.requests.headers.我们可以看到这个时候的user-agent已经被改为Mozilla/5.0

下面我们看一下返回的内容：

现在我们可以看到返回的内容已经不是错误和警告的信息，而是商品页面了。

下面我们给出全部的代码：

在这个代码中与访问的京东的代码不同，我们需要通过headers字段让我们的代码模拟浏览器向亚马逊服务器提供HTTP请求。这对于很多对自己的数据保护比较好的网站，我们通过这样的方式也能爬取相关的内容。那么整个的全代码采取的try和except框架形式，代码执行会很稳定很高效。现在可以再从亚马逊上找一个商品进行爬取。

Part17:实例3：百度/360搜索关键词提交

图片发自App

百度和360搜索大家都知道，我们在想有没有可能用程序自动的向这两个搜索引擎提交关键词并且获得它的搜索结果呢？下面呢我们用python的requests库来做到这一点。

其实我们都知道无论是百度还是360，他都对关键词的搜索提供了一个接口，百度的关键词接口是：

360的关键词接口是：

图片发自App

比如说这两个接口中只要我们替换keyword就可以向搜索引擎提交关键词了。事实上，那对我们requsts库来讲，只需要构造这样的url,既可以实现关键词的提取。下面我们用requsts库来实现这个代码。

接下来我们要构造一个URL的链接，这个链接包含我们要搜索的关键词。这时候大家应该记得曾经我们讲过一个参数叫params，他可以向URL增加相关的内容，为了使用它我们首先构造一个键值对。这个键值对表明了我们要搜索的关键词是什么。这里面我们假设我们搜索的关键词是python。接下来我们用requests.get()函数来获取相关的内容。这个时候我们通过params将键值对输入进去。并且获得相关的请求。下面我们看一下status.code，这个时候状态码是200说明我们的请求已经被提交了。那这里我们的使用道理是什么呢？那我们可以看一下请求给百度的URL是什么，我们可以使用respons对象中包含的requests信息。

未待完续。。。。。。。。

Python网络爬虫与信息提取入门<3>

你可能感兴趣的:(Python网络爬虫与信息提取入门<3>)