Python网络爬虫之爬取糗事百科案例

项目说明

使用Python写网络爬虫之糗事百科示例

使用工具

Python2.7.X、pycharm

使用方法

在pycharm中创建一个ceshi.py文件,撰写代码,运行代码,查看运行结果

操作原理

1.首先先了解正则表达式的使用方法,见:正则表达式

2.找到糗事百科的主页URL:http://www.qiushibaike.com/hot/page/1

可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为编写程序做准备。

然后,右击查看页面源码:

Python网络爬虫之爬取糗事百科案例_第1张图片
网页源码分析-图1
Python网络爬虫之爬取糗事百科案例_第2张图片
网页源码分析-图2

观察发现,每一个段子都用div标记,其中class必为content,我们只需要用正则表达式将其“扣”出来就可以了。

示例代码

Python网络爬虫之爬取糗事百科案例_第3张图片
代码示例1
Python网络爬虫之爬取糗事百科案例_第4张图片
代码示例2

运行结果

Python网络爬虫之爬取糗事百科案例_第5张图片
运行结果

参考来源:http://blog.csdn.net/pleasecallmewhy/article/details/8932310

你可能感兴趣的:(Python网络爬虫之爬取糗事百科案例)