1首先需要调用lxml 和lxml.html模块

2做成doc文件: 两种方法:doc = lxml.html.fromstring(page)  doc=soupparser.fromstring(page)

3解析 首先分清节点。取text例如:直接调用xpath即可:doc.xpath('//books/title/text()')是books节点下的title的文本内容。还有就是取标签:doc.xpath('//title/@lang')取得title下的属性为lang的标签的内容

4另附xpath基本语法:http://www.w3school.com.cn/xpath/xpath_syntax.asp