YOLO12改进-模块-引入Convolutional Modulation模块 捕捉更丰富的局部 - 全局空间关系,提升目标边界定位精度。
在视觉识别领域,卷积神经网络(ConvNets)擅长捕捉局部空间特征,但在建模全局上下文依赖方面存在不足;VisionTransformers(ViTs)通过自注意力机制能有效建模全局关系,却面临高分辨率图像下计算成本呈二次增长的问题。ConvNeXt等研究虽表明大核卷积的潜力,但传统方法在核尺寸超过7×7时性能提升有限且计算负担加重。ConvolutionalModulation应运而生,旨在通