简单的Python网络爬虫

认识爬虫:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

尝试爬取一个小说的章节:

1.首先,我们需要根据URL获取网页:

我们选择的环境为Anaconda3-5.2.0-Windows-x86_64,即Anaconda的Windows64位版本。


简单的Python网络爬虫_第1张图片

通过上述代码我们可以获得《明武天下》这本小说的章节的信息以及大量我们不需要的内容。


简单的Python网络爬虫_第2张图片

2.找出想要的信息,并进行数据清洗:

通过浏览器的查看功能(轻击鼠标右键可看到选项),可以知道章节是被包含在

之中。这时候我们可以使用'(.*?)'来达到我们的目的。


通过上述表达式我们已经可以把我们想要的章节名拿出来了。

简单的Python网络爬虫_第3张图片
简单的Python网络爬虫_第4张图片

接下来就要进行数据清洗来达成我们的最终目的了:

简单的Python网络爬虫_第5张图片

3.总结

这只是一个简单的爬取小说章节的小程序,如果有喜欢python的小伙伴可以通过深入学习来实现更多的功能。

你可能感兴趣的:(简单的Python网络爬虫)