他是通过不用anchor,直接用网络预测位置实现的
但我觉得这没什么,好像siamrpn++就已经像他这样做了,但略为一些不同,根据这篇论文这里每一个head用到了空洞卷积即atrous convolution,然后每个head expansion rate 不同使得各个head之间感受野不同提供的信息也因此不同
通篇看下来,他实现了之前siamrpn++的多层特征融合,网络结构中每个adaptive box head就是一个几个特征层,不同深度的特征层如深层的语义信息和浅层的有助于定位的信息相互融合最终在最后一个head分化出回归分支和分类分支