零基础小白想学Python爬虫,但是不理解原理?5分钟带你找到思路

很多人私信我,说自己是0基础学习Python,但是学爬虫的时候不太理解这个原理,下面我来给大家分享一下我的对Python爬虫的原理。

首先我们要知道什么是Python爬虫?

我们可以把互联网看成是各种信息的站点及网络设备在一起组成的一张蜘蛛网,这张网中什么信息都有,而我们上网就是获取互联网中信息内容的过程。

那么什么是爬虫?爬虫就是一段模拟人们上网的程序,爬虫可以抓取互联网上的信息,Python爬虫就是用Python语言写的一段爬虫程序。

Python爬虫的结构

1.调度器:相当于人的大脑、电脑的CPU,调度器负责调度URL管理器、下载器、解析器之间的协调工作;

2.URL管理器:爬虫抓取内容的URL地址(网址),URL包括未爬取的URL地址和已爬取的URL址,URL管理器能够防止重复抓取URL和循环抓取URL。实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现;

3.网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2,urllib2是Python官方的基础模块;

4.网页解析器:用来解析网页的字符串,网页解析器可以按照我们的要求来提取出对我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式、html.parser(Python自带)、beautifulsoup(第三方插件)、lxml(第三方插件),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。

5.应用程序:就是从网页中提取的有用数据组成的一个应用。

如何理解这个过程呢?

想象你自己是一只蜘蛛,现在你被放到了互联“网”上。那么,你需要把今日头条所有的网页都看一遍。怎么办呢?没问题呀,你就随便从某个地方开始,比如打开今日头条首页,你看到那个页面引向的各种链接。于是你很开心地爬到了“热点”那个页面。太好了,这样你就已经爬完了俩页面(首页和热点)!暂且不用管爬下来的页面怎么处理的,你就想象你把这个页面完完整整抄成了个html放到了你身上。突然你发现, 在热点这个页面上,有一个链接链回“首页”。作为一只聪明的蜘蛛,你肯定知道你不用爬回去的吧,因为你已经看过了啊。所以,你需要用你的脑子,存下你已经看过的页面地址。这样,每次看到一个可能需要爬的新链接,你就先查查你脑子里是不是已经去过这个页面地址。如果去过,那就别去了。

大家是不是觉得思路清晰了很多呢,如果觉得文章对自己有帮助就点赞关注小编吧,我会每天跟大家分享我的学习方法。

你可能感兴趣的:(零基础小白想学Python爬虫,但是不理解原理?5分钟带你找到思路)