Day3-用request爬百度贴吧图片

最近姐姐我也掉《三生三世十里桃花》的坑里了,所以今天来爬点美图,这次用requests。

1.目标网站

分析目标网站https://tieba.baidu.com/p/5008608157,发现这个帖子一共有5页,可以以url?pn=x访问。

代码如下,其中spider是我们要写的爬虫函数:

Day3-用request爬百度贴吧图片_第1张图片

2.写爬虫

我们写爬虫的时候,要从爬下来的源代码提取需要的信息,可以用re正则表达式。但是正则表达式使用起来不那么方便,容易写错,我们试一下更强大更简单的XPATH。XPATH是一种语言,用来在XML文档中查找信息,支持HTML。具体的写法参考XPATH的语法http://www.w3school.com.cn/xpath/xpath_syntax.asp

在python里使用XPATH,需要安装lxml库。lxml是Python语言中处理XML和HTML功能最丰富,最易于使用的库。

>pip install lxml

Day3-用request爬百度贴吧图片_第2张图片

运行脚本:

Day3-用request爬百度贴吧图片_第3张图片

我需要的图片已经被爬下来啦:

欣赏一下姑姑的美照:

Day3-用request爬百度贴吧图片_第4张图片

你可能感兴趣的:(Day3-用request爬百度贴吧图片)