python爬虫获取网页信息,除了文本信息,最常见的内容就是照片了,获取照片的方式有多种,这里把自己常用的三种模式分享一下。
举例子说明吧。如下图,现在要爬取链家网上各个在售房屋的户型图,首先先找出户型图对应的http,这个http只有一个内容,就是照片。
下载照片的方式是以二进制文本的格式。。。真没什么好讲的,上代码吧
import requests
#照片地址
ul = 'https://image1.ljcdn.com/x-se/hdic-frame/prod-c818b354-218a-445e-af8b-60340bebd193.png.240x180.jpg'
response = requests.get(ul)
#取出照片的二进制信息
img = response.content
print(img)
path='E:\\test1.png' #定义保存文件的路径
#这里的wb,“w”表示写入,"b"表示写入的为二进制文本
with open(path, 'wb') as f:
f.write(img)
import urllib
image_url='https://image1.ljcdn.com/x-se/hdic-frame/prod-c818b354-218a-445e-af8b-60340bebd193.png.240x180.jpg'
response = urllib.request.urlopen(image_url)
#图片应该以二进制格式储存,‘wb’代表二进制格式
with open('E:\\qing.jpg','wb') as fp:
fp.write(response.read())
import urllib
image_url='https://image1.ljcdn.com/x-se/hdic-frame/prod-c818b354-218a-445e-af8b-60340bebd193.png.240x180.jpg'
urllib.request.urlretrieve(image_url,'E:\\qing2.jpg')#网址、存储路径