lxml.html.fromstring(str)
将str转为lxml.html.HtmlElement类型的对象
lxml.html.tostring(lxml.html.HtmlElement, pretty_print)
将lxml.html.HtmlElement转化为str类型
tree.cssselect(css)
css为选择器中的模式语句,如同re里头的compile
此函数返回所有匹配的内容,以list形式存放的是lxml.html.HtmlElement
用text_context()的方法来获取爬到的数据
选择所有标签:*
选择指定标签:Tab
选择class=‘name’的标签:.name
选择id=‘name’的标签:#name
选择父标签的所有子标签:父标签 > 子标签
选择父标签的所有标签:父标签 a
选择title属性为name的所有标签:[title=name]
抓取方法 | 性能 | 使用难度 |
正则表达式 | 快 | 困难 |
Beautiful Soup | 慢 | 简单 |
Lxml | 快 | 简单 |