灰度图像只有1个通道,读取为数组的shape为[m,n],坐标[m,n]就是图像中m行n列位置的像素。
RGB图像有3个通道,读取为数组的shape为[x,y,z], 只管看为x个y行z列的矩阵组成的ndarray。
而在使用plt.imshow()作图时,可以这样理解:x表示RGB图的第x行,y表示RGB图的第y列,z表示RGB图的第z个通道。
cifar图像从pickle恢复时shape为[-1,3072],32*32*3的图像拉成了一行,注意:前1024个数存储的是R通道的像素数据,依次类推,直接使用reshape([32,32,3])恢复成的3维数组与imshow命令作图使用的3维数组格式是不相同的,因此得不到想要的结果。
原因:假设img为直接使用reshape([32,32,3])得到的数组。img[1,:,:]表示的是原来的行向量中的[96:96+96]个点,而不是我们希望的图像的第2行像素点。
正确的恢复方法:img = np.reshape(原始行向量,[3,32,32]) ; img = img.transpose(1,2,0)
reshape([3,32,32])将行向量变成了3个单通道的图像,transpose使得图像的索引成为符合imshow命令的格式。
transpose变换过程:设image为行向量,img0 = np.reshape(image,[3,32,32]),img1 = img0.transpose(1,2,0)
对于同一个点,img0中的索引为[x,y,z], img1中的索引则为 [y,z,x],即索引从(0,1,2)成为(1,2,0)
上图为cifar图像的显示过程。