python爬虫学习笔记(二)

信息标记与BeautifulSoup库

信息标记的作用

1.标记后的信息可形成信息组织结构,增加的信息的维度

2.标记后的信息可用于通信,存储或展示

3.标记的结构与信息一样具有重要的价值

4.标记后的信息更利于程序的理解和应用

现在国际上信息标记的通用形式有三种:

XML(eXtensible Markup Language)

基于HTML格式发展而来的通用信息表达形式。

python爬虫学习笔记(二)_第1张图片

python爬虫学习笔记(二)_第2张图片

JSON(JavaScript Object Notation)

是JavaScript语言中对面向对象信息的一种表达形式,用有类型的键值对构建的信息表达方式。

python爬虫学习笔记(二)_第3张图片

对于JavaScript来说可以直接将JSON格式作为程序的一部分使得编写程序大大简化。

YAML(YAML Ain't Markup Language)

YAML采用无类型的键值对来标记信息。

python爬虫学习笔记(二)_第4张图片

三种信息标记形式的比较

XML是最早的通用信息标记语言,可拓展性好但繁琐,主要用在Internet上的信息交互与传递。

JSON信息有类型,适合程序处理,比XML简洁,主要用在移动应用的云端和节点的互相通信,无注释。

YAML信息无类新,文本信息比例最高,可读性好,各类系统的配置文件,有注释易读。

信息提取的一般方法

python爬虫学习笔记(二)_第5张图片

python爬虫学习笔记(二)_第6张图片

python爬虫学习笔记(二)_第7张图片

HTML(Hyper Text Markup Language)

超文本标记语言是一种常用的信息标记语言,是WWW(World Wide Web)的信息组织方式。它能够将一些超文本的信息,例如声音,图像和视频嵌入到文本之中。

HTML可以通过预定义的标签

...

组织不同类型的信息。

python爬虫学习笔记(二)_第8张图片

python爬虫学习笔记(二)_第9张图片

BeautifulSoup库

beautifulsoup库是一个优秀的第三方库,它能够对XML格式进行解析并提取其中的相关信息。它是解析,遍历,维护“标签树”的功能库。https://www.crummy.com/software/BeautifulSoup

python爬虫学习笔记(二)_第10张图片

BeautifulSoup库的解析器有

python爬虫学习笔记(二)_第11张图片

BeautifulSoup类的基本元素有

python爬虫学习笔记(二)_第12张图片

 

你可能感兴趣的:(python)