爬虫系列-----抓包并爬取图片和源代码

@[toc]


1.学习老师的云开发可以加老师微信:JL1714873054获取课程。

爬虫系列-----抓包并爬取图片和源代码_第1张图片

课程特色:

  1. 配套笔记
  2. 项目视频
  3. 不懂的地方可以随时咨询老师
  4. 配套错误解决方案
  5. 咨询运维方案

绪论

            这节课给大家讲解关于python爬虫的内容。python的强大之处在于它的三方类库。我们今天要实现的目标就是爬取昵图网上的图片以及该网站的源代码


一.类库的引入

            我们在这里要用到的类库是requestsre.首先定义要爬取的地址:

url='http://www.nipic.com/photo/jingguan/ziran/index.html'

将爬取的网站源码存到变量data中:

data = requests.get(url).text

并做打印处理:

print("网站源码", data)

我们在爬取源代码和打印上就算大功告成了,代码量很少。

二.定义过滤规则

定义规则采取的是正则表达式,筛选出有图片格式的数据文件。
【不懂正则表达??】------->点击传送门《正则表达有关知识概念
首先观察我们要爬取的网站图片信息,图片属于.jpg
爬虫系列-----抓包并爬取图片和源代码_第2张图片
我们最后的过滤条件就是

r'data-src="(.*?.jpg)"'

接着创建一个pa模板,使其符合匹配的网址,进行过滤:

pa = re.compile(regex) 

findall 方法找到data中所有的符合pa的对象,添加到re中并返回

ma = re.findall(pa, data) 

三.图片的保存与提取

图片被我们存到了ma中,接下来就是进行提取了,我们用一个for循环就可以搞定

i=0
for image in ma:
    i += 1

利用我们之前引入的类库进行提取:

image = requests.get(image).content

在本地项目新建存储图片的文件夹imgs,将抓包爬取到的图片存储到我们的文件夹中

with open('imgs/' + str(i) + '.jpg', 'wb') as f:

四.完成爬取

爬虫系列-----抓包并爬取图片和源代码_第3张图片

你可能感兴趣的:(python爬虫,人工智能)