python通过re、xpath、beautiful soup三种方法进行网页解析

python解析网页有很多种方法,下面介绍三种方法:

1、正则表达式:re

2、xpath

3、beautiful soup

首先先获取网页源代码,可以通过requests方式获取

requests获取网页源代码

接下来对网页源代码部分截图进行解析,我们目标是提取小说所有章节网址,如下图所示:

网页截图

1、通过正则表达式:re 提取每章网址

re方式解析
re方式提取结果显示

2、通过xpath方式: 提取每章网址

xpath方法解析
xpath方法解析提取数据结果

3、通过beautiful soup方式: 提取每章网址

beautiful soup方法解析
soup解析提取数据结果显示

你可能感兴趣的:(python通过re、xpath、beautiful soup三种方法进行网页解析)