爬虫到底可以有多简单—python来告诉你

我们先来看看到底什么是爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
以上是百度百科的说法。在我看来其实可以更简单,人工访问网页—>代码程序访问
先来看一下人是如何访问网页的:以访问百度搜索首页为例
爬虫到底可以有多简单—python来告诉你_第1张图片
那要是用代码进行访问呢?

import requests
content = requests.get("https://www.baidu.com/")

不带导入库,就一行代码,是不是感觉如此简单。(当然这里很多事情都是库来帮我们完成的,但那不要紧,我们不是会用库就行吗?我也时常感觉python的灵魂其实就是一行代码,pip install …。哈哈…,有点扯远了。)
上面的那行代码虽然只做了一件事情:帮我们按下了Enter。虽然就这么简单的一件事情,我们却完成了一次跨越,一次伟大的跨越。那就是我们已经开启了爬虫的大门。

到底行不行呢?还是我们在这里瞎扯淡呢,看看结果。

print(content.text)   //显示返回的文本内容

爬虫到底可以有多简单—python来告诉你_第2张图片
是不是,把我们看到的页面内容都给我展示出来了。
就这样,我们就实现了自己的第一个爬虫,看看用python实现爬虫是多么的简单。
作为入门我就感觉这就够了,我们就是要访问页面,看到返回就可以了。
你可能会有疑惑,这和我们在页面中看到的不一样啊。页面中只显示了我们红色框内的文本,并没有这么多内容啊。
因为我们在浏览器中看到的是一个漂亮的页面,那些我们不关心的文本就是为了渲染整个页面用的,不信的话,你使用chrome浏览器打开页面之后,右击检查。
爬虫到底可以有多简单—python来告诉你_第3张图片
爬虫到底可以有多简单—python来告诉你_第4张图片
可以看到,其实内容还是蛮多的,内容跟我们使用程序访问的结果类似,都是包含了大量的文本信息。
那我们怎么去除这些没有的格式文本信息,提取处我们想要的文本呢?
且听下回分解。

你可能感兴趣的:(爬虫)