题目来源:七月在线学员的社区分享,答案供大家参考,欢迎评论区交流指正。
敲黑板:谈到Mask-rcnn,不如说这是一道考验介绍算法的陈述题。面试官会根据你简历做的算法or你提到的算法(恰好他也熟悉的Hhh)进行提问要你介绍,说明。这里不要求同学们说的多么仔细,我建议可以这样回答
1.它基于的历史:双阶段检测器faster-rcnn+语义分割分支
2.它的最大几个idea,让你眼前一亮或是和你的项目论文关联度比较大的创新点
2.1: 解决特征图与原始图像上的RoI不对齐问题 :即Roi_align:传统的proposals在生成固定长度的roi的过程由于二次量化时造成的位置精度损失以及双线性插值法回去看paper!!!
2.2 掩模预测和分类预测解耦:参考Nms的类内抑制,对于实例分割的每个类别独立地预测一个二值掩模,每个二值掩模的类别依靠网络RoI分类分支给出的分类预测结果。
与FCN不同,FCN是多分类问题(相当于softmax)这里类似于进行了每个class的伯努利0-1分布预测(相当于sigmoid )
**这一点回答的不太好,主要书对于实例分割不够了解,欢迎大佬补充
3.后续的改进:例如faster-rcnn→cascade→DetecoRS的发展
敲黑板!!!!L1,L2正则化也是做机器学习or深度必考的!
1.包括各自的功能
(why need正则化:防止训练产生过拟合,用复杂的模型去拟合训练集时容易出现过拟合,即泛化能力不足, 用一些惩罚项约束复杂度)
2.各自怎么约束复杂度
(L1对模型权值的绝对值之和约束,L2的模型权值的平方和约束!)
3.区别和特点:
L1正则化容易得到稀疏解,L2正则化容易得到平滑解。
原因:(1)从解空间来说(2)从梯度下降来说
答:Vit,Detr,swin , Deformable
敲黑板:有做过transformer的同学,基本的组件要掌握的(muti-head,位置编码,编码器,解码器,FFN等),没有的话一般不会问~因为大概2020才引入到cv的,题外话:感觉做过了transformer,有一些不会cv的面试官也可以交流了hhh感觉cv面试也有挺多是nlp,ml方向的老师面
答:主要说了sin-cos方式和embeddings)
追问:你认为在CV中,encoder之前的位置编码能不能去除?
没有这个的话,切分patch的时候,只有图像的抽象特征信息而没有位置信息,感觉不利于回归任务,分类应该问题不大
,然后告诉我说,目前有针对这个positon-encoding的简化甚至存在的必要性的讨论让我可以去看看,这个属于一个开放问题