八、数据提取的概念和数据的分类(数据的提取方法)

1、数据提取的概念和数据的分类

在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来有规律的提取和解析数据.

  • 结构化数据:json,xml等
  • 处理方式:jsonpath,xpath,转换python类型处理,bs4,直接转化为python类型
  • 非结构化数据:HTML
  • 处理方式:正则表达式,xpath,bs4

下面以今日头条的首页为例,介绍结构化数据和非结构化数据

(1)结构化数据例子:
八、数据提取的概念和数据的分类(数据的提取方法)_第1张图片

(2)非结构化数据:
八、数据提取的概念和数据的分类(数据的提取方法)_第2张图片

(3)XML数据:

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italiantitle> 
  <author>Giada De Laurentiisauthor> 
  <year>2005year> 
  <price>30.00price> 
book>
<book category="CHILDREN">
  <title lang="en">Harry Pottertitle> 
  <author>J K. Rowlingauthor> 
  <year>2005year> 
  <price>29.99price> 
book>
<book category="WEB">
  <title lang="en">Learning XMLtitle> 
  <author>Erik T. Rayauthor> 
  <year>2003year> 
  <price>39.95price> 
book>
bookstore>

从上面可以看出,xml数据也是结构非常明显的

你可能感兴趣的:(爬虫,爬虫学习之路,数据提取的概念,提取数据的分类)