python爬虫入门——html(xml)语言知识

简单的python爬虫程序能够让用户从一个或多个网页中提取想要的信息。由于我最近需要爬取某个网页资源信息,所以开始入门python爬虫类的相关知识
博客中相关知识的介绍内容参考了菜鸟教程中的html语言和mooc慕课上嵩天老师的爬虫教程

写在前面

我的爬虫学习刚刚起步,最近需要做的事情和学习任务也占据了很多时间,越发觉得自己能力亟待提升。所以写这条博客在于帮助自己梳理爬虫的内容,以及分享一些有趣的知识以供交流。

推荐的内容

我主要根据mooc网课上北京理工大学的嵩天老师的课件和视频进行学习,嵩天老师的课件深入浅出,并且十分友好,注重实践,让python小白也能够快速入门和实战。
如果按照慕课的学习节奏,直接从requests库开始入门,网页解析出来的html文档总是让无html基础的人一头雾水,所以觉得简单学习一下html语言还是比较有必要的。
python爬虫入门——html(xml)语言知识_第1张图片

html语言介绍

HyperText Markup Language,超文本标记语言,用来创建网页的标准标记语言,简称html。顾名思义,超文本也就是将文本之外的内容用语言描绘出来,包括图片、视频、音频、链接等。
html并不是一种编程语言,而是一种标记语言,用来编写一个网页的源代码。一个网页可以用html语言编写,并被浏览器解析,从而呈现出可读的网页内容给用户。
我个人认为,在使用python爬虫时,不用学会如何用html语言编写网页,只需要在解析网页时能够读懂html语言,并进行相关操作即可。因此,只需要掌握有限的html知识即可支撑python爬虫的学习。

与爬虫相关的知识内容

下面的内容我按照个人认为的重要性进行了降序罗列

html元素:

组成html文档的各种完整元素,比如带有元素内容的标签;无元素内容的空标签等等

下面是一个标题标签的实例

<title>这是一个标题title>

元素一般由开始标签和结束标签构成首尾,两个标签中间是元素内容。
元素是构成html文档(网页源代码)的重要概念,了解每一种元素的作用、属性、特征,是网页解析的基础。
这里推荐去菜鸟教程上查看html教程,里面的知识通俗易懂,能够很快了解html基本知识。
python爬虫入门——html(xml)语言知识_第2张图片

元素的嵌套关系:

html元素可以有嵌套关系,一个标签(html元素)就像一个节点,一个节点下可以有多个分支,每个分支则为子节点,如此衍生下去。若将html文档这种嵌套关系友好的显示出来,则最终显示效果类似一个“标签树”,这也是后面进行html文档解析的重要概念。

下面就是主体标签中嵌套的标题和段落。只有在body标签内的内容才能够在浏览器页面上直接显示给访问用户。

<body>
	<h1>一级标题h1>
	<p>一个段落p>
<body>
<--!主体部分结束-->
元素的属性:

元素可以有属性,一般加在开始标签内(即第一个标签)。属性有很多种,我们会在各种教程和网页解析内容中看见它们。属性能够对元素内容进行规定,或者,属性能够帮助我们定位或分类标签等。

例如在链接标签中,就需要在标签的href属性中给出字符串形式的链接地址,这样才能点击时正常跳转。

<a href='https://www.bilibili.com/'> 点击访问bilibilia>
更多的内容:

了解上面三种概念肯定是不够的,不过这没有关系。我们可以去html教程里进行选择性学习,俗话说“哪里不会补哪里嘛”,而且在后续的python爬虫学习中,我们也能够不断学习新的html知识,并温习之前的html知识。总的来说,掌握html的程度能够支撑我们学习python对html网页的爬虫操作即可。

譬如,下面是我在b站上简单搜索“总是吃炸鸡健康吗”,解析得到的html文档“标签树”部分截图,下面我想从这颗“标签树”上摘下一些有用的信息,如我想知道每个视频的标题,看看大家关于这个话题拍的都是哪类视频。
python爬虫入门——html(xml)语言知识_第3张图片
于是,我们发现在a标签中,a的属性title就是一个视频链接的标题,那么我们可以将它们爬取下来看看。
python爬虫入门——html(xml)语言知识_第4张图片
如此这般,我们就爬取了b站视频搜索页面下“总是吃炸鸡健康吗”的第一页所有视频标题,发现关于“垃圾食品”、“深夜”等关键词的视频比较多。在这个过程中,我也就顺带复习了html文档中某些元素的相关知识,如元素的名称、属性。
后续的,我们可以将这些信息以特定的数据类型储存起来,以供需要。

回顾

python爬虫还是比较实用的一个功能,用好爬虫能够帮助方便快捷地获取海量的信息资源。
这里给出博客中提到的两个学习资源的链接。

Python网络爬虫与信息提取——慕课链接
菜鸟html教程

你可能感兴趣的:(python爬虫,python,爬虫,html)