Python爬虫是什么?

Python爬虫是什么?

Python爬虫是由Python程序开发的网络爬虫(webspider,webrobot),是按照一定规则自动抓取万维网信息的程序或脚本。

其实一般是通过程序在网页上获取你想要的数据,也就是自动抓取数据。

为什么需要用爬虫?

你可以想象一个场景:你在微博上崇拜一个名人,被他的微博迷住了。你要把他这十年微博里的每一句话都摘抄下来。这个时候你会怎么做?手动上Ctrl+C和Ctrl+V?这个方法是对的。在数据量很小的情况下我们还是可以这样做的,但是在数据数千的情况下你还是要这样做吗?

爬虫技术可以轻松解决问题。我们可以看到爬虫技术主要可以帮助我们做两种事情:一种是对数据采集的需求,主要针对特定规则下的大量数据的信息采集;另一个是自动化需求,主要用于信息聚合和搜索。

大大提高工作效率和工作质量!

通用网络爬虫(UniversalWebcrawler),又叫ScalableWebCrawler,从一些种子URL抓取到整个Web,主要是为搜索引擎和大型Web服务提供商收集数据。这类网络爬虫的抓取范围和数量巨大,对抓取速度和存储空间要求较高,抓取页面的顺序相对较低。比如我们常见的百度和谷歌搜索。当我们输入关键词时,他们会从整个网络中寻找与关键词相关的网页,并按照一定的顺序呈现给我们。

聚焦爬虫是指选择性地抓取与预定义主题相关的页面的爬虫。相比一般的web爬虫,聚焦爬虫只需要抓取特定的网页,抓取的广度会小很多。

一般来说,通用爬虫类似蜘蛛,需要寻找特定的食物,但是不知道蜘蛛网的哪个节点有,所以只能从一个节点开始,遇到一个节点就看一下,有食物就得到食物,如果这个节点表示某个节点有食物,就会按照指示找到下一个节点。聚焦的网络爬虫意味着这只蜘蛛知道哪个节点有食物,它只需要计划一条到达那个节点的路线就可以获得食物。

你可能感兴趣的:(python)