L11:BeautifulSoup讲解

BeautifulSoup是一个网页解析库。
包含4个解析器,html.parser、lxml、xml、html5lib.
html.parser是python自带的解析器;
lxml是最常用的解析器;
xml支持解析xml;
html5lib容错率高速度慢。

标签选择器

可以选择标签,获得其名称、属性、内容等

嵌套选择器

可以选择其子节点、子孙节点、父节点、祖先节点、兄弟节点。

标准选择器

find_all(name, attrs, recursive, text, **kwargs)

常用的选择器,可以根据标签名称、标签属性、标签内容等进行选择。

CSS选择器

soup.select("...")

你可能感兴趣的:(L11:BeautifulSoup讲解)