点击下方“AI算法与图像处理”,一起进步!
重磅干货,第一时间送达
作为计算机视觉领域三大会议之一的 ICCV(IEEE International Conference on Computer Vision),一开奖,知乎上便有一大堆小伙伴激烈谈论。
https://www.zhihu.com/question/473907895
很多科研大佬分享自己的努力成果,恭喜论文被成功接受的大佬,同时也感谢他们分享自己的成果。
作为一个围观者,我也想试着贡献自己的一份力。整理这些优秀的成果,将ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理。
地址将放在这里:
https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo
整理这些内容,本身是非常耗时费力的,不过还是很有收获的。特别是在日常的工作中,遇到瓶颈,没有思路时,相关工作的最新成果能给我一定的启发,尝试优化当前的工作。因此,做这件事,对我来说非常的有意义,同时我觉得也能帮助到很多人。
论文和代码的主要来源:
1、https://arxiv.org/
2、知乎上大佬的分享
3、https://github.com/ 上搜索
目前已经整理的部分内容,主要包含下面十个方向。
Conformer: Local Features Coupling Global Representations for Visual Recognition
论文/paper:https://arxiv.org/abs/2105.03889
代码/code:https://github.com/pengzhiliang/Conformer
在这篇论文中,提出了一种混合网络结构,称为 Conformer,,以利用卷积运算和自我注意机制来增强表征学习。一致性源于特征耦合单元(FCU),它以交互方式融合不同分辨率下的局部特征和全局表示。一致性采用并行结构,最大限度地保留了局部特征和全局表示。
Reg-IBP: Efficient and Scalable Neural Network Robustness Training via Interval Bound Propagation
论文/paper:None
代码/code:https://github.com/harrywuhust2022/Reg_IBP_ICCV2021
FineAction: A Fined Video Dataset for Temporal Action Localization
论文/paper:https://arxiv.org/abs/2105.11107
代码/code: None
这个数据集包含139K个精细动作实例,这些实例被密集地标注在跨越106个动作类别的17K个未经剪辑的视频中。与现有的动作定位数据集相比,FineAction具有更精细的动作类别定义和高质量的注释,以减少边界的不确定性。
MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions
论文/paper:https://arxiv.org/abs/2105.07404
代码/code:https://github.com/MCG-NJU/MultiSports/
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
论文/paper:https://arxiv.org/abs/2101.11986
代码/code: https://github.com/yitu-opensource/T2T-ViT
提出了一种新的 Tokens-to-Token Vision-Transformer,尺寸与 ResNet50 相当的模型,可以在ImageNet上获取 83.3% Top1 准确率
Visual Transformer with Statistical Test for COVID-19 Classification
论文/paper:https://arxiv.org/abs/2107.05334
代码/code: None
Personalized Image Semantic Segmentation
论文/paper:None
代码/code: https://github.com/zhangyuygss/PIS
CDNet: Centripetal Direction Network for Nuclear Instance Segmentation
论文/paper:None
代码/code: https://github.com/2021-ICCV/CDNet
Crossover Learning for Fast Online Video Instance Segmentation
论文/paper:https://arxiv.org/abs/2104.05970
代码/code: https://github.com/hustvl/CrossVIS
对于视频实例分割中的时间信息建模,提出了一种新的交叉学习方案,该方案利用当前帧中的实例特征对其他帧中的同一实例进行像素定位。与以往的方案不同,交叉学习不需要任何额外的网络参数来增强特征。交叉学习结合实例分割损失,实现了高效的跨帧实例-像素关系学习,并在推理过程中带来了无代价的改进。此外,本文还提出了一种全局均衡的实例嵌入分支,使得在线实例关联更加准确、稳定。
Instances as Queries
论文/paper:https://arxiv.org/abs/2105.01928
代码/code: https://github.com/hustvl/QueryInst
FineAction: A Fined Video Dataset for Temporal Action Localization
论文/paper:https://arxiv.org/abs/2105.11107
代码/code: None
MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions
论文/paper:https://arxiv.org/abs/2105.07404
代码/code:https://github.com/MCG-NJU/MultiSports/
XVFI: eXtreme Video Frame Interpolation(Oral)
论文/paper:https://arxiv.org/abs/2103.16206
代码/code: https://github.com/JihyongOh/XVFI
Overfitting the Data: Compact Neural Video Delivery via Content-aware Feature Modulation
论文/paper:None
代码/code: https://github.com/Anonymous-iccv2021-paper3163/CaFM-Pytorch
CPF: Learning a Contact Potential Field to Model the Hand-object Interaction
论文/paper:https://arxiv.org/abs/2012.00924
代码/code:https://github.com/lixiny/CPF
MVP Benchmark: Multi-View Partial Point Clouds for Completion and Registration
论文/paper:None
代码/code:https://github.com/paul007pl/MVP_Benchmark
Walk in the Cloud: Learning Curves for Point Clouds Shape Analysis
论文/paper:https://arxiv.org/abs/2105.01288v1
代码/code:https://github.com/tiangexiang/CurveNet
Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts
论文/paper:https://arxiv.org/abs/2104.00887
代码/code:https://github.com/clovaai/mxfont
Road-Challenge-Event-Detection-for-Situation-Awareness-in-Autonomous-Driving
论文/paper:None
代码/code:https://github.com/Trevorchenmsu/Road-Challenge-Event-Detection-for-Situation-Awareness-in-Autonomous-Driving
Cross-Camera Convolutional Color Constancy
论文/paper:https://arxiv.org/abs/2011.11164
代码/code:https://github.com/mahmoudnafifi/C5
Learnable Boundary Guided Adversarial Training
论文/paper:https://arxiv.org/abs/2011.11164
代码/code:https://github.com/FPNAS/LBGAT
Prior-Enhanced network with Meta-Prototypes (PEMP)
论文/paper:None
代码/code:https://github.com/PaperSubmitAAAA/ICCV2021-2337
努力分享优质的计算机视觉相关内容,欢迎关注:
个人微信(如果没有备注不拉群!)
请注明:地区+学校/企业+研究方向+昵称
下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!
下载3 CVPR2021
在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文