BS库的基本元素与遍历方法

Beautiful soup 库 —第三方python库
导入并解析: 即源代码的呈现
BS库的基本元素与遍历方法_第1张图片

打印: print(soup.prettify() )
对美丽汤的理解: 解析、遍历、维护“标签数”的功能库
BS 的解析库:bs4的HTML 解析库 等4个
格式:BeautifulSoup(mk,’ html.parser’)
BS 类基本元素:
BS库的基本元素与遍历方法_第2张图片
代码实现:
BS库的基本元素与遍历方法_第3张图片
BS库的基本元素与遍历方法_第4张图片
BS库的基本元素与遍历方法_第5张图片
说明:

  1. 先做汤
  2. 查看页面的title
  3. 获取a标签的链接标签(其实文本存在两个a标签)
  4. 通过Name查看名字
  5. 查看标签的属性,对属性的提取,获取a标签的链接属性,标签属性的类型以及标签怎么定义的

DEMO 的结构:

BS库的基本元素与遍历方法_第6张图片
其基本格式:
BS库的基本元素与遍历方法_第7张图片
涉及到遍历:下行,上行,
下行遍历: 属性(contents children 遍历儿子节点 descendants遍历所有子孙节点)
BS库的基本元素与遍历方法_第8张图片
BS库的基本元素与遍历方法_第9张图片
上行遍历:(parent /patents)
BS库的基本元素与遍历方法_第10张图片
标签树的上行遍历
BS库的基本元素与遍历方法_第11张图片
平行遍历 是建立在同一个父亲节点下的!!
BS库的基本元素与遍历方法_第12张图片
BS库的基本元素与遍历方法_第13张图片

如如何让html页面 更加友好的显示?

BS库的基本元素与遍历方法_第14张图片
页面变成变量!
调用pretty -----
打印
这样就更清晰了
BS库的基本元素与遍历方法_第15张图片

打印a 标签BS库的基本元素与遍历方法_第16张图片

你可能感兴趣的:(爬虫基础)