数据提取概述

数据提取概述

一、响应内容的分类

在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据

  • 结构化的响应内容

    • json字符串

      • 可以使用re、json等模块来提取特定数据
      • json字符串的例子如下图

      数据提取概述_第1张图片

    • xml字符串

      • 可以使用re、lxml等模块来提取特定数据

      • xml字符串的例子如下

        <bookstore>
        <book category="COOKING">
          <title lang="en">Everyday Italiantitle> 
          <author>Giada De Laurentiisauthor> 
          <year>2005year> 
          <price>30.00price> 
        book>
        <book category="CHILDREN">
          <title lang="en">Harry Pottertitle> 
          <author>J K. Rowlingauthor> 
          <year>2005year> 
          <price>29.99price> 
        book>
        <book category="WEB">
          <title lang="en">Learning XMLtitle> 
          <author>Erik T. Rayauthor> 
          <year>2003year> 
          <price>39.95price> 
        book>
        bookstore>
        
  • 非结构化的响应内容

    • html字符串

      • 可以使用re、lxml等模块来提取特定数据
      • html字符串的例子如下图

      数据提取概述_第2张图片

二、认识xml以及和html的区别

要搞清楚html和xml的区别,首先需要我们来认识xml

1、认识xml

xml是一种可扩展标记语言,样子和html很像,功能更专注于对传输和存储数据

<bookstore>
<book category="COOKING">
  <title lang="en">Everyday Italiantitle> 
  <author>Giada De Laurentiisauthor> 
  <year>2005year> 
  <price>30.00price> 
book>
<book category="CHILDREN">
  <title lang="en">Harry Pottertitle> 
  <author>J K. Rowlingauthor> 
  <year>2005year> 
  <price>29.99price> 
book>
<book category="WEB">
  <title lang="en">Learning XMLtitle> 
  <author>Erik T. Rayauthor> 
  <year>2003year> 
  <price>39.95price> 
book>
bookstore>

上面的xml内容可以表示为下面的树结构:

数据提取概述_第3张图片

2、xml和html的区别

二者区别如下图

数据提取概述_第4张图片

  • html:
    • 超文本标记语言
    • 为了更好的显示数据,侧重点是为了显示
  • xml:
    • 可扩展标记语言
    • 为了传输和存储数据,侧重点是在于数据内容本身

3、常用数据解析方法

数据提取概述_第5张图片

你可能感兴趣的:(爬虫,爬虫)