在python中,PIL.Image、cv2以及pytorch都可以对图像进行处理,那么这三种方式读取图片输出的格式以及显示方式有哪些不同呢,一起来探究下。
提前准备一张JPG格式的,大小为427×640(H×W)的彩色图片进行测试:
import torch
import torch.nn as nn
import torch.nn.functional as F
import cv2
import numpy as np
from PIL import Image
img_pil = Image.open('demo.jpg')
img_pil.show()
print(f'img_pil type is:{type(img_pil)}, img_pil shape is {img_pil.size}') #(W, H)
输出(忽略图片):
img_pil type is:<class 'PIL.JpegImagePlugin.JpegImageFile'>, img_pil shape is (640, 427)
可以看出,Image读入图片后格式是JpegImagePlugin.JpegImageFile
类型的,且shape
为(W, H)
,不显示通道数。
img_cv = cv2.imread('demo.jpg')
cv2.imshow('img_cv',img_cv)
cv2.waitKey(0) # 按0关闭窗口
print(f'img_cv type is:{type(img_cv)}, img_cv shape is {img_cv.shape}') #(H, W, C)
输出(按0关闭图片窗口):
img_cv type is:<class 'numpy.ndarray'>, img_cv shape is (427, 640, 3)
可以看出,cv2
读入图片后格式是Jndarray
类型的,且shape
为(H, W, C)
。值得注意的是cv2
显示图片时,是非阻塞的,如果不显式地使用waitKey
,图片将会一闪而过。
此处使用二维的卷积来处理图片,使用pytorch
中的nn
模块可以轻易地构造出一个卷积。二维卷积的in_channels
对应输入tensor第二个维度(第一个维度为batch_size),因此一般将数据reshape为(batch_size, C, H, W)
,而其输出tensor的第二个维度和out_channels
对应(out_channels
t同时也等于该层的卷积核个数,事实上,卷积核的shape为(out_channels, in_channels, kernel_size, kernel_size)
)。卷积只接收tensor
类型的输入,下面仍然使用出cv2
先将图像读过来,将其转为tensor格式,经过卷积层处理后,取前三个feature map
转化为ndarray
显示出来:
img_cv = cv2.imread('demo.jpg')
conv = nn.Conv2d(in_channels=3,out_channels=64,kernel_size=3,padding=1) # 构造卷积
img_reshape = np.reshape(img_cv, (-1, 3, 427, 640)) # reshape成nn需要的shape
img_tensor = torch.tensor(img_reshape).float() # 将ndarray转化为Tensor
img_conv = conv(img_tensor)
print(f'img_conv type is:{type(img_conv)}, img_conv shape is {img_conv.shape}')
img_array = img_conv[0,:3].reshape(427, 640, 3).detach().numpy() # 取前三个feature map
cv2.imshow('img_array',img_array)
cv2.waitKey(0)
输出:
img_conv type is:<class 'torch.Tensor'>, img_conv shape is torch.Size([1, 64, 427, 640])