之前写爬虫大多是爬网页中的url,然后将url保存下来就可以了,倒还没有想过要获取真的图片到本地。
网络上有很多方法,但是很多都是本地,或者其他,亲测了两种方法:
方法一,使用urllib.urlretrieve(),之前其实偶尔看到这个函数,但一直记不住它是做什么的,主要是没在实战中用上,这是最简单的方法:
import urllib
# 网络上图片的地址
img_src = 'https://img-my.csdn.net/uploads/201212/25/1356422284_1112.jpg'
# 将远程数据下载到本地,第二个参数就是要保存到本地的文件名
urllib.urlretrieve(img_src,'D:/1.jpg')
关于urllib.urlretrieve()的解释,我是在这看到的:http://www.nowamagic.net/academy/detail/1302861
方法二,使用PIL+requests:
import requests
from PIL import Image
from io import BytesIO
response = requests.get(img_src)
image = Image.open(BytesIO(response.content))
image.save('D:/9.jpg')
这种方法就是将url从网上get下来,然后利用PIL,通过open打开和save保存,之前看到大多就是image.show(),而并没有讲这么保存,这个我试了一下,就是会打开这个image的图片,后来看到这篇http://www.jb51.net/article/102981.htm的时候,看到原来只要save就可以了,参数就是你要保存的文件名。
注意,这个BytesIO是必须的,它是用来操作二进制数据的,图片就是二进制数据了,和它相对的自然是StringIO,这是用来存str的。他们的区别就好似python读写普通文件和二进制文件。
其他方法我没有测,因为最近在尝试弄读取验证码,所以用到了PIL,这个相对来说,还是没有第一种方法简单,只需要一句代码,并且库是本身自带的,PIL可能还需要去下。个人觉得这两种方法已经足够简单,其他也没有必要尝试了。