提取数据处理总流程

文章目录

    • 结构化数据
      • JSON 文件
      • XML 文件
    • 非结构化数据
      • 文本、电话号码、邮箱地址
      • HTML 文件
      • Xpath

结构化数据

JSON 文件

  1. JSON Path
  2. 转化成Python类型进行操作(json类)

XML 文件

  1. 转化成Python类型(xmltodict)
    2.XPath
  2. CSS选择器
  3. 正则表达式

非结构化数据

文本、电话号码、邮箱地址

  • 正则表达式

HTML 文件

1.正则表达式
2. XPath
3. CSS选择器

Xpath

可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素

  1. 先使用etree.HTML()或者etree.parse()解析HTML文件
  2. 使用html.xpath()进行文本匹配筛选

你可能感兴趣的:(Spider,xml,json,正则表达式,xpath)