深度学习中框架中reshape和transpose的区别

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、reshape与transpose的区别?
  • 二、两种函数使用在哪些地方需要注意
  • 总结


前言

今天在使用注意力机制对张量维度进行变换时,需要交换特征图通道与行列维度。因此使用reshape和transpose两个函数进行变换。
之前使用的深度学习的框架是tensorflow,这周接触到pytorch框架,发现两个框架张量(tensor)波段顺序不一样,tensorflow张量顺序为(b,w,h,c),字母代表的含义依次为batch_size,行,列,通道,而pytorch框架里张量顺序为(b,c,w,h)。而在使用不同库读取遥感影像时也会出现波段顺序不一致的情况,常用的简单tif影像读取库有PIL,scipy,cv2,tifffile,这些库通常用于rgb或tif灰度图像的读取,读取结果为(w,h,c),而对于GeoTIFF影像而言,通常使用GDAL库读取,读取结果为(c,w,h)。
这种情况下需要改变数组维度,两个函数有啥区别呢?


一、reshape与transpose的区别?

通常在需要改变张量形状时,最常用的方法是reshape,但是resize函数只能改变张量形状,即不改变数组元素的排列顺序,而transpose函数是将坐标轴互换,当张量为二维时,实现矩阵转置的效果。这里以numpy函数为例,tensorflow和pytorch对应函数功能一致。
例子:

arr = np.arange(90).reshape([5, 6, 3])
print(arr)
arr = np.transpose(arr, [2, 1, 0])
print(arr)

结果:
深度学习中框架中reshape和transpose的区别_第1张图片

结果图

二、两种函数使用在哪些地方需要注意

1、在使用tensorflow进行训练时,由于遥感影像涉及多波段输入,而tensorflow没有tif数据的解码器,因此通常需要转换成tfrecord格式数据进行训练。在这种情况下,读取各波段数据的库尽量保持一样,如此可避免数据输入模型后出现张量中波段顺序不一致的问题。
2、进行特殊一维卷积或者多维卷积(比如对通道维度进行运算),在需要调整张量形状时,需要仔细思考两种函数结果,再选择相应的函数进行形状调整。


总结

这篇博客主要总结reshape和transpose两个函数的区别。在模型构建中,通常会频繁交换或者改变张量维度,因此对两个函数返回结果需要多加注意。

你可能感兴趣的:(遥感与深度学习,深度学习,python)