数据提取方法

本文内容：

在爬虫爬取的数据中有很多不同类型的数据，我们需要了解数据的不同类型来有规律的提取和解析数据。

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。

Python的re模块完美支持正则表达式，熟练使用正则的语法之后，基本可以完美提取想要的信息

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。
xpath文档传送门

beautifulsoup不同于xpath只取部分xml结构树的节点，它会把所有的xml结构树都截取出来，因此在内存和时间上都要稍差于xpath，但是他的语法更简单
官方文档

就提取数据方法的速度而言，最快的是正则表达式，想对的学习成本也是很高：