AdaptiveAvgPool2d的学习笔记

1 致谢

感谢 Thomas V的解答,请参阅《AdaptiveAvgPool2d In More Detail | Thomas V》

2 AdaptiveAvgPool2d: torch.nn.AdaptiveAvgPool2d

对于AdaptiveAvgPool2d算法,它跟GAP算法是十分类似的,其优点在于:可以将特征图resize到给定的输出尺寸,这一点跟F.interpolate()比较类似,不过这里的元素聚合的方式用的是pool操作;
具体来说,AdaptiveAvgPool2d首先动态地生成池化核大小,即:round(input_size / target_size),采用“模板最大化”原则向上取整获得池化核大小;然后再在特征图上计算等距的位置点,计算起始坐标时就采用“最小原则”向下取整。
这里以1d图像为例,输入图像的大小是14,目标大小是4,于是模板大小为14/4=3.5;
对于等距点来说,一共有 4 4 4个等距区间,则起始位置分别是0、3.5、7和10,然后基于“模板最大化”原则向下取整(因为是起始点),于是得到0、3、7和10;于是,四个池化区间slices分别为0:43:77:1110:14
我们还可以通过实验看看AdaptiveAvgPool2d具体的计算效果,这里使用F.adaptive_avg_pool1d作为示例:

import torch
a = torch.arange(0,14., requires_grad=True)	# 生成自然数序列
b = torch.nn.functional.adaptive_avg_pool1d(a[None, None], 4)
# a[None, None]的效果是在最前面添加两个维度,变为[1, 1, 14]
b.backward(torch.arange(1., 1+b.size(-1))[None,None])
print(b, a.grad)

b: tensor([[[ 1.5000, 4.5000, 8.5000, 11.5000]]], grad_fn=)

3 计算过程模拟

模拟adaptive_avg_pool_1d的计算过程:[torch_pool_1d.ipynb]

def torch_pool_1d(inputs, target_size):
    start_points = (torch.arange(target_size, dtype=torch.float32) * (inputs.size(-1) / target_size)).long()
    end_points = ((torch.arange(target_size, dtype=torch.float32)+1) * (inputs.size(-1) / target_size)).ceil().long()
    print(end_points)
    pooled = []
    for idx in range(target_size):
        pooled.append(torch.mean(inputs[:, start_points[idx]:end_points[idx]], dim=-1, keepdim=False))
    pooled = torch.cat(pooled, -1)
    return pooled

inps = np.array([0, 1, 2, 3, 4, 5, 6], dtype=np.float32)[None, :]
inps_torch = torch.tensor(inps)
x1 = torch_pool_1d(inps_torch, 4)
x2 = torch.nn.functional.adaptive_avg_pool1d(inps_torch, 4)
print(x1)
print(x2)
>>> end_points: tensor([2, 4, 6, 7])
tensor([0.5000, 2.0000, 4.0000, 5.5000])
tensor([[0.5000, 2.0000, 4.0000, 5.5000]])

你可能感兴趣的:(学习,深度学习,pytorch)