如何用正则去爬取小说(入门级)

相信大家刚接触爬虫的时候,都会想着怎么匹配url,怎样去获得我们想要的数据,

今天就给大家带来一个用正则表达式爬取   全书网   的案例~~~~


由于全书网没有反爬机制,正常获取请求头和url就可以了

这里我们用到的库有 requests和re。

我们可以尝试print一下response,看看是否出现乱码,出现乱码可以encoding  gbk 或者utf-8(每个网站不一样),如果还是出现乱码,可以先编码为原来网站的 再解码。

response.text用来反馈html页面。



接下来把第一章的url找到

以爬取第一章为例,我们找到第一章的url之后要仔细观察,它章节内容是通过

链接的,所以用正则表达式去匹配的时候

也要带上,不然会穿插其他数据。(至于正则表达式如何使用我会在文章末尾给大家一个详细的学习网址)

这里用了贪婪匹配,切记带上头尾,每个网站不同,注意分析。



在第一章里面打开网页源代码,找到正文。

把开头和结尾的

放到正则表达式里面,然后用findall()把数据返回。


到这里我们的第一章爬取就基本完成。

虽然我们返回来的数据是小说内容,但是有一些东西我们是不要的例如
,我们可以把它去掉优化一下


是不是舒服多了

这次用正则表达式爬取小说就结束了。

不懂的可以留言,或者留下联系方式,一起讨论学习。

正则表达式:https://www.runoob.com/regexp/regexp-syntax.html

你可能感兴趣的:(如何用正则去爬取小说(入门级))