Xpath和BeautifulSoup4

什么是Xpath?

  • Xpath(XML Path Language)是一门在 XML文档中查找信息的语音,可用来在XML文档对元素和属性进行遍历

什么是XML?

  • XML指可扩展标记语音
  • XML是一种标记语音,很类似HTML
  • XML的设计宗旨是传输数据,而非显示数据
  • XML 的标签需要我们自行定义
  • XML被设计为具有自我描述性
  • XML是W3C推荐标准

XML和HTML的区别

XML是可扩展标记语音,被设计为传输和存储数据,其焦点是数据的内容。
HTML是超文本标记语音,显示数据以及如何更好显示数据

Xpath表达式
  • nodename选取此节点的所有节点
  • / 从根节点选取
  • // 从匹配选择的当前节点选择文档中节点,而不考虑它们的位置
  • . 选取当前节点
  • .. 选取当前节点的父节点
  • @ 选取属性

什么是BeautifulSoup4?

  • 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据

BeautifulSoup4表达式

  • findall() 查找所有节点
  • find() 查找单个
  • 支持css选择器
获取标签的属性 p['class'] => p.attrs['class']
获取标签的文本 p.get_text() => p.string

BeautifulSoup4和XPath的区别

  • Beautifulsoup4 要比Xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档

你可能感兴趣的:(Xpath和BeautifulSoup4)