在进行python爬虫时,往往还会用到lxml模块。这个模块是什么,有什么功能呢
lxml是XML和HTML的解析器,其主要功能是解析和提取XML和HTML中的数据;lxml和正则一样,也是用C语言实现的,是一款高性能的python HTML、XML解析器,也可以利用XPath语法,来定位特定的元素及节点信息。
HTML是超文本标记语言,主要用于显示数据,他的焦点是数据的外观。
XML是可扩展标记语言,主要用于传输和存储数据,他的焦点是数据的内容。
其中,lxml提供的etree模块可以专门用于解析HTML/XML包,这也是很多爬虫案例中会和Xpath配合使用的。
lxml的优点在于,相较于BeautifulSoup,其解析速率更高。
这次还是下载的wheel文件,地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 依然是下载符合python版本和系统版本的文件,然后到cmd中使用命令行pip install 该.whl文件地址即可。
也可以直接在pycharm中直接下载。
可以利用lxml解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范或者不完整,lxml解析器会自动修复或补全代码,从而提高效率。
示例:
#提取html中的数据
from lxml import etree
text = '''
>