python爬虫之lxml

上一节介绍了用BeautifulSoup解析html文档,但是弊端也说了,速度慢,相当的慢,而且解析的灵活度也不是很好,
下面我们介绍一个速度快,灵活度高的东西,lxml库,
如果解析过json的人,应该对这么不陌生,它既可以解析json又可以解析html,可以说相当的强大,而且使用起来很是有点爽,不麻烦
安装这个库的方式有两种,一种是pip下载,还有一个是去官方网站上下载mis文件,(链接自己去找)
如果下载的是mis文件,
1:修改后缀名为zip或者rar
2:解压并找到lxml文件夹
3:把上面得到的文件夹复制到python/Lib/(也就是你的python源码目录的Lib文件夹下)
之后就可以import了,
下面是介绍lxml解析html的代码

from lxml import etree
import requests
def getHtml(html):
    novelcontent = requests.get(html).content
    return etree.HTML(novelcontent)

source = getHtml(rootUrl)
listclassify = source.xpath(u'//div[@class="subnav"]/ul/li/a')

fname = i.text.decode('utf-8').encode('gbk')[0]
print fname .attrib['href']
href = fname .attrib['href']
text= fname .text

先导入包,lxml这个库在解析html时,使用的是etree这个类,把得到的源码放入进去,然后用xpath函数解析,
u’//div[@class=”subnav”]/ul/li/a’
//是根目录的意思
div是html标签
[@class=”subnav”]是一个限制条件
/ul/li/a是接下来的目录
这句话的意思是找到根目录下的div标签且这个标签的属性是class =“subnav”,div标签下面的ul/li 最后得到a标签,
如上,得到a标签之后,就可以得到href这样就可以递归继续往下爬了,

你可能感兴趣的:(python)