Python网络爬虫与信息提取入门<6>

Part 20 第二周内容导学

我们继续学习python网络爬虫与信息提取课程。上一周我们讲解了python的request库,学习了自动爬取HTML页面和自动向网络提及请求的方法、讲解了robots协议、以及5个实战的网络爬取例子。

本周我们将继续讲解如何解析HTML页面的基本方法。我们讲解一个python语言里一个非常优秀的第三方库Beautiful Soup以及介绍信息标记和提取的一般方法,最后给出中国大学排名定向爬虫这样一个实例。通过这个实例我们将结合erquest库和Beautiful Soup库讲解从网络中获取信息并提取信息的基本方法。

Python网络爬虫与信息提取入门<6>_第1张图片


Part 21 Beautiful Soup库的安装

下面我们介绍Beautiful Soup库的安装。Beautiful Soup也叫美味汤,它是一个非常优秀的python第三方库,他能够对HTML、SML格式进行解析并且提取其中的相关信息。在Beautiful Soup的网站上有这样一段话:Beautiful Soup可以对你提供你给他的任何格式进行相关的爬取,并且可以进行树形解析,这个我们再进行详细介绍。Beautiful Soup的使用原理是它能够把你给他的任何文档当作一锅汤,然后给你煲制这锅汤。

Python网络爬虫与信息提取入门<6>_第2张图片

下面我们来安装一下Beautiful Soup库:

首先我们要用管理员权限启动command命令台,

Python网络爬虫与信息提取入门<6>_第3张图片

然后我们在命令台上执行pip install Beautiful Soup4,

Python网络爬虫与信息提取入门<6>_第4张图片

我们看到库已经下载安装成功。安装之后我么对Beautiful Soup库来个小测,这里面我们使用一个HTML页面地址是

http://python123.io/ws/demo.html

Python网络爬虫与信息提取入门<6>_第5张图片

我们用浏览器先打开这个网站看一下:在这个页面中我们看到他有一个标题栏,标题栏上面有一行字叫This is a python demo,这个地方表示的是一个title信息。我们可以将这个文件存取下来,存取成demo.html。或者我们用他的源代码。

Python网络爬虫与信息提取入门<6>_第6张图片

我们打开他的源代码,能看到这个页面对应的是一个HTML.5.0格式的页面,在这个代码中我们看到了很多的标签,这种标签以一对、尖括号来表示,如果同学们现在看不太懂这样的内容没有关系,大家记住这个HTML页面是以尖括号为主的标签所封装的信息就可以了。

Python网络爬虫与信息提取入门<6>_第7张图片


那么,如何获得这样的源代码呢?我们有两种方式:

第一种,我们可以手工获得HTML的代码,首先我们打开浏览器找到刚才的这个页面,

Python网络爬虫与信息提取入门<6>_第8张图片

然后我们右键点击“查看源代码”:

Python网络爬虫与信息提取入门<6>_第9张图片

在任何一个浏览器上都有这样的一个功能,之后我们就能看到这个页面的源代码了,

Python网络爬虫与信息提取入门<6>_第10张图片

我们可以将这个页面的源代码拷贝下来,并且放到我们的程序里,另外我们上周已经学过了request库,我们可以用request库来自动的获取这个来链接对应的源代码。

下面我们看一下,我们输入import requests,然后我们用get函数来获得这个链接所对应的内容,然后我们显示一下这个文本,我们这个时候看到的就是HTML页面的相关内容。

Python网络爬虫与信息提取入门<6>_第11张图片

为了简化我们可以定义一个变量叫demo,表示这个页面的所有代码内容。我们给出demo = r.text,后面我们将频繁地使用demo这个变量,请同学们把这段代码看清楚。

下面我们对Beautiful Soup安装进行一个小测。首先我们要导入Beautiful Soup库,我们输入from bs4 import BeautifulSoup4。这里面很有趣,尽管我们安装这个库的时候,我们安装的是Beautiful Soup4,但是我们在使用的时候我们用他的简写bs4,所以我们from bs4这个库的时候我们导入了一个类叫BeautifulSoup。

Python网络爬虫与信息提取入门<6>_第12张图片

那下面我们来开始做这锅汤,也就是把这个demo的页面熬制成一个Beautiful Soup能够理解的汤,我们用一个变量叫soup,这里面需要大家注意:我们除了给出demo,同时还要给出解析demo的解释器,这里面我们使用的是html.parser,也就是说我们是对demo进行HTML解析。

那下面我们看看我们的解析是否正确呢?也就是说我们看一下我们安装的库是否正确。我们用print语句将我们做的这锅汤打印出来。我们输入print(soup.prettify()),好我们看到这个页面相关输出了,那说明我们Beautiful Soup库成功的解析了我们给出的demo页面。

Python网络爬虫与信息提取入门<6>_第13张图片

那么,怎么使用Beautiful Soup库呢?简单来说,只需要两行代码:

Python网络爬虫与信息提取入门<6>_第14张图片

第一行:from bs4 import BeautifulSoup。这里面的BeautifulSoup是一个类,大家记住B和S要大写。

第二行:然后呢,我们需要做一锅汤,那这锅汤呢,我们用一个变量叫soup。当然我们可以用其他的变量,soup = BeautifulSoup()这个类型有两个参数,第一个参数我们需要BeautifulSoup解析的html格式的信息,我们可以用

data来做个代替,我们也可以用任何的变量,同时我们给出一个解析这锅汤时用的解析器,我们这里使用html.parser。只要两行代码我们就可以看到html和sml的信息,是不是很简单呢?


Part 23 Beautiful Soup库的基本元素

下面我们介绍一下BeautifulSoup库的基本元素。理解这些基本元素,是使用BeautifulSoup库的基础。我们知道BeautifulSoup库是能够解析html和sml文件的功能库。那么我们该怎么理解他呢?

Python网络爬虫与信息提取入门<6>_第15张图片

我们以HTML文件为例,任何一个html文件,如果打开他的源代码,我们都能看到它是由一组尖括号构成的标签组织起来的。这里边每一对尖括号形成了一个标签,而标签之间存在一个上下游关系,形成了一个标签树。所以我们可以说Beautiful Soup库是解析、遍历、维护“标签树”的功能库。只要你提供的文件是标签类型那么Beautiful Soup库都可以对它做很好的解析。

那么我们再看一下每个标签的具体格式:这里面我们以p标签为例:

p标签是以一对尖括号形成的一个标签类型,他的name 是p。那么这里面有一对尖括号和带有一个/的尖括号之间形成的就是一个标签对,英文叫Tag。那么其中的第一个尖括号中的第一个单词p就是这个标签的名称,我们叫name,一般这个标签名称是成对出现的,那么在最开始和最后都出现标明这一个标签的范围。那么在第一对尖括号中除了名字之外,存在这一个相关的域,这个域叫属性域,这里面包含0个或多个属性,那这个属性呢是用来定义这个标签的特点。这里面我们看到一个属性,他叫class,属性的内容是title。那么任何一个属性有它属性的特性和它的值,所以我们叫属性是由键和值,就是键值对构成的。这样的一个格式构成了标签的基本结构。

Python网络爬虫与信息提取入门<6>_第16张图片

我们说Beautiful Soup库,也叫beautifulsoup4库或bs4。我们在使用他的时候,需要采用一些引用方式。目前我们最常用的引用方式是from bs4 import BeautifulSoup,这个引用方式说明我们从bs4库中引入了一个类型,这个类型叫BeautifulSoup,这里面还要提醒大家:BeautifulSoup中的B和S要大写。因为python是一个大小写敏感的语言

Python网络爬虫与信息提取入门<6>_第17张图片

除了这样的约定引用方式之外,如果我们需要对BeautifulSoup库里面的一些基本的变量进行判断的时候,我们也可以直接引用BeautifulSoup库,使用的是import bs4。那么如何理解BeautifulSoup这个类呢?我们想说BeautifulSoup库本身解析的是html和sml的文档,那么这个文档和标签树是一一对应的。 那么经过了BeautifulSoup库的处理,我们可以使得每一个标签树,大家可以理解为标签树就是一个字符串,我们将这个标签树转换成一个BeautifulSoup类,那么BeautifulSoup类就是能够代表标签树的类型。

Python网络爬虫与信息提取入门<6>_第18张图片

事实上,我们认为html文档、标签树、和BeautifulSoup类这三者是等价的。在这个等价的基础上,我们就可以通过BeautifulSoup类使得标签树形成了一个变量,而对这个变量的处理就是对标签树的相关的处理。

这里面我们可以使用几行代码,首先我们from bs4 import BeautifulSoup这个类型,然后可以定义一个变量soup,它等于BeautifulSoup,然后我们给出一个html代码,并且指定它的解析器是html.parser,同时我们也可以通过打开文件的方式来对BeautifulSoup类提供html或sml的文档内容。

简单讲我么可以把内容BeautifulSoup类当作对应HTML/XML文档的全部内容。

之前的例子我们使用了HTML解析器。那么除了HTML解析器,BeautifulSoup库也可以使用四种其他的解析器:

Python网络爬虫与信息提取入门<6>_第19张图片

第一种就是我们之前使用过的BeautifulSoup提供的HTML解析器,我们在输入参数的时候输入html.parser,它的使用条件是:只要我们安装了BeautifulSoup库就可以使用。

第二种:接下来我们可以使用lxml的HTML解析器,那我们在使用的时候输入的是lxml这样的一个解析器的标识。为了使用这样的解析器,我们需要在命令行中使用pip install 去安装一个lxml这样的一个库,才能使用这个解析器。

第三种:此外lxml也提供XML解析器,也同样是安装lxml库就可以使用。

第四种:另外还有一个库,叫第三方库叫html5lib。我们可以通过pip install html5lib去安装这样的一个解析器。

事实上,无论哪种解析器他都可以有效的解析html和sml文档的。这里面呢,我们主要使用html解析器,如果大家处理xml文档,或者希望获得更快的性能或者非常准确的xml解析的格式和信息的话,可以使用其他的解析器。

下面我们介绍一下BeautifulSoup类的基本元素:

Python网络爬虫与信息提取入门<6>_第20张图片

BeautifulSoup类一共有5种基本元素:

第一种:就是我们之前介绍过的,并且使用过的Tag标签。标签是BeautifulSoup类里面的最基本的信息组织单元,他与html和xml文档中的一对尖括号相对应,它分别是用尖括号和尖括号中带/来标明开头和结尾。

第二种:标签中有名字,也构成了基本元素叫name。那么我们可以用标签.name来获取标签的名字。除了名字之外,标签有属性,它是以字典形式组织的这样一个类型。我们可以用标签.attrs来获得属性的信息。

第三种:此外在标签和尖括号之间,也就是我们所说的省略号的部分。实际上它是一种字符串,我们可以用标签.string来

未待完续。。。。。。

你可能感兴趣的:(Python网络爬虫与信息提取入门<6>)