python进阶爬虫class 2(Lxml)

lxml

lxml.html.fromstring(str)

将str转为lxml.html.HtmlElement类型的对象

 

lxml.html.tostring(lxml.html.HtmlElement, pretty_print)

将lxml.html.HtmlElement转化为str类型

 

 

lxml使用css选择器

tree.cssselect(css)

css为选择器中的模式语句,如同re里头的compile

此函数返回所有匹配的内容,以list形式存放的是lxml.html.HtmlElement

用text_context()的方法来获取爬到的数据

 

 

选择所有标签:*

选择指定标签:Tab

选择class=‘name’的标签:.name

选择id=‘name’的标签:#name

选择父标签的所有子标签:父标签 > 子标签

选择父标签的所有标签:父标签 a

选择title属性为name的所有标签:[title=name]

 

 

三种抓取的性能对比

抓取方法 性能 使用难度
正则表达式 困难
Beautiful Soup 简单
Lxml 简单

 

你可能感兴趣的:(python)