Python爬虫练习——我的学习笔记

前段时间应朋友之邀,帮忙用Python写爬虫抓去了些数据。作为世界上最好用两种语言(指Python2.x和Python3.x,为网友的戏谑之言),Python爬虫确实很强大,帮完朋友后,决定自己再慢慢研究研究,好好学习一下Python这门眼下炙手可热的编程语言。

爬虫,其实主要分为几个步骤:

1、获取网页内容

2、解析网页内容,获得所需数据

3、存储数据

基本上,爬虫都是按照这个思路一行一行代码敲下来的。

好了,那么首先就进行第一步,获取网页内容。

获取网页内容,第一步又是什么呢,自然是得先有个网址啦,你打开浏览器浏览网站,第一步不就是往地址栏里面输入网址吗。这里我以豆瓣为例,准备抓取豆瓣网上的内容。所以准备的地址就是:http://douban.com

Python爬虫练习——我的学习笔记_第1张图片

如上图所示,在浏览器中只要输入http://douban.com然后敲击回车就能获得豆瓣的页面,在python代码中需要敲下如下代码

import requests

response=requests.get('douban.com')

然后运行代码,发现报错了

Python爬虫练习——我的学习笔记_第2张图片

根据错误提示,我们必须把'douban.com'改成'http://douban.com'

根据提示更改代码

import requests  

response = requests.get('http://douban.com')

再次运行

一切正常,也就是说网页已经抓取下来了,而抓取下来的一切信息都在我们命名的这个“response”变量里。在这里我用了最简单的网页抓取方式,就是requests模块的get方法,在这里只需要传递一个参数,就是网页的地址就OK了,当然了,还能传递其他不同的参数发挥不同的作用,但是目前还用不到,以后慢慢再说。

接下来,这个‘response’要如何操作呢,或者说它支持哪些操作?

这个时候,我们需要用Python的内置函数dir来帮忙啦。

dir(response)

可以看到,以下这些就是可以对‘response’进行的操作,至于每一个操作都是什么意思呢,需要我们慢慢摸索,只有自己摸索,才能学得到精髓。

当然啦,我们最关心的就是网页的内容,毕竟数据都在那里面藏着呢。网页的内容就是倒数第二个‘text’。

import requests

response = requests.get('http://douban.com')

print(response.text)

结果如下

Python爬虫练习——我的学习笔记_第3张图片

得到了网页的内容,是一个html的文档。

至此,第一步获取网页内容圆满成功。

你可能感兴趣的:(Python爬虫练习——我的学习笔记)