小白学 Python 爬虫(8):网页基础

小白学 Python 爬虫(8):网页基础_第1张图片

人生苦短,我用 Python

前文传送门:

小白学 Python 爬虫(1):开篇

小白学 Python 爬虫(2):前置准备(一)基本类库的安装

小白学 Python 爬虫(3):前置准备(二)Linux基础入门

小白学 Python 爬虫(4):前置准备(三)Docker基础入门

小白学 Python 爬虫(5):前置准备(四)数据库基础

小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装

小白学 Python 爬虫(7):HTTP 基础

先赞后看是个好习惯

网页的组成

我们的数据来源是网页,那么我们在真正抓取数据之前,有必要先了解一下一个网页的组成。

网页是由 HTML 、 CSS 、JavaScript 组成的。

HTML 是用来搭建整个网页的骨架,而 CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制的, JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScript 配合 CSS 来完成的。

我们打开 Chrome 浏览器,访问博客站的首页,打开 F12 开发者工具,可以看到:

小白学 Python 爬虫(8):网页基础_第2张图片

在选项 Elements 中可以看到网页的源代码,这里展示的就是 HTML 代码。

不同类型的文字通过不同类型的标签来表示,如图片用 标签表示,视频用 标签表示,段落用

标签表示,它们之间的布局又常通过布局标签

嵌套组合而成,各种标签通过不同的排列和嵌套才形成了网页的框架。

在右边 Style 标签页中,显示的就是当前选中的 HTML 代码标签的 CSS 层叠样式,“层叠”是指当在HTML中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。

而 JavaScript 就厉害了,它在 HTML 代码中通常使用

你可能感兴趣的:(小白学 Python 爬虫(8):网页基础)