爬取下面这个网页,并把它的html输出
http://python123.io/ws/demo.html
import requests
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
soup.BeautifulSoup(demo, "html.parser")
print(soup.prettify())
属性 | 说明 |
---|---|
.contents | 子节点的列表,将 所以儿子节点存入列表 |
.children | 子节点的迭代类型,与.content类似,用于循环遍历儿子节点 |
.descendants | 儿孙节点的迭代类型,包含所以儿孙节点,用于循环遍历 |
标签树的上行遍历:
属性 | 说明 |
---|---|
.parent | 节点的父亲标签 |
.parents | 节点先辈标签的迭代类型,用于循环遍历先辈节点 |
标签树的平行遍历:
属性 | 说明 |
---|---|
.next_sibling | 返回按照HTML文本顺序的下一个平行节点标签 |
.previous_sibling | 返回按照HTML文本顺序的上一个平行节点标签 |
.next_siblings | 迭代类型,返回按照HTML文本顺序的后续所有平行节点标签 |
.previous_siblings | 迭代类型,返回按照HTML文本顺序的前续所有平行节点标签 |
BeautifulSoup中prettify用于美观的输出文本内容 (如下图一)