Python爬虫系列之----Scrapy(五)网页提取的三种方式(正则,Beautiful Soup,Lxml)
一、提取方式从网页中提取数据有很多方法,概况起来大概有这么三种方式,首先是正则,然后是流行的BeautifulSoup模块,最后是强大的Lxml模块。1、正则表达式:最原始的方法,通过编写一些正则表达式,然后从HTML/XML中提取数据。2、BeautifulSoup模块:BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导