忘泪

基于Box Supervision的弱监督图像语义分割

简介

为什么要“弱监督”做图像语义分割

让我们来看看论文怎么说的。

ICCV 2015 BoxSup^[1], “But pixel-level mask annotations are time-consuming, frustrating, and in the end commercially expensive to obtain.”
ICCV 2015 WSSL^[2], “Acquiring such data is an expensive, time-consuming annotation effort.”
CVPR 2017 SDI^[3], “Compared to object bounding box annotations, pixel-wise mask annotations are far more expensive, requiring ∼ 15× more time. Cheaper and easier to define, box annotations are more pervasive than pixel-wise annotations.”
CVPR 2019 BCM^[4], “Unlike other classic visual tasks such as classification and object detection, labeling semantic seg- mentation is rather expensive.”、“For example, the cost of labeling a pixel-level segmentation annotation is about 15 times larger than labeling a bounding box, and 60 times than labeling an image class.”
核心观点如下：

深度学习方法需要大量的标注数据。
标注pixel-level（像素级别）的类别标签（即图像语义分割标注）是极其耗时的，成本非常高。
标注Bounding Box（边界框）或标注image level（图像级别）类别标签成本要低很多，标注一幅图像的bounding box或一幅图像的类别标签要比语义分割标注快15倍或60倍。

讲一个趣事，某大牛退休时，每天会定时标注一幅图像（像素级别的类别标签，图像语义分割），像绣花一样，标注了几个月，然后每次做PPT时都会和大家说这件事，说我标注的这幅图像已经精确的不能再精确了，没人敢说标注得有我的好。忘了大牛叫啥了。

基于Box Supervision的弱监督图像语义分割

上面的四篇论文均介绍了基于Box Supervision做的弱监督图像语义分割，这些论文的核心思路是基于Bounding box标注信息使用一些算法（如MCG、GrabCut、DenseCRF等）生成Region Proposals来当作Fake Ground Truth，计算loss，反向传播梯度，训练backbone网络（如VGG16、ResNet101等）。
由于这些论文中生成Region Proposals的技术是没有用到数据集中的Ground Truth，因此是弱监督的，
总结几点：

Fake Ground Truth与Ground Truth存在Gap。
BoxSup、WSSL、SDI、BCM在全监督的baseline的不同，在Pascal VOC验证集上，BoxSup mIOU=63.8，WSSL=67.6，SDI=69.1，BCM=69.8。前三篇可以说是没区别，第四篇做的很精细，但是均没有解决最大的上面所说的Gap问题。
WSSL挺solid的，复现与论文基本一致。SDI的M&G+，复现结果与论文一致。WSSL的Bbox-Seg数据集和SDI的M&G+数据集作者release出来，但是没有release出具体的生成算法。

BoxSup^[1]

资源链接

pdf：BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation
博客：
- BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation读书笔记
- 论文笔记 | BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentati

框架

对于一幅图像，首先是用一些技术（如Selective Search、MCG等）生成若干（2k）个candidate masks（候选区域mask，图中上方绿色部分）。接着，在训练过程中，采用一种策略从candidate masks中挑选一个当作Ground Truth（图中update masks），计算pixel-level的分类损失（如softmax交叉熵损失函数），反向传播训练网络（图中update network）。

损失函数

pixel-level的分类损失函数

$\varepsilon(\theta)=\sum_{p}e(X_{\theta}(p),l(p))$
$p$ 表示像素的下标即该像素属于图像中的 $p$ 个， $l (p)$ 表示ground truth第 $p$ 个像素所属的类别， $X_{\theta}(p)$ 表示网络预测的第 $p$ 个像素所属的类别， $\theta$ 表示网络的参数。 $\varepsilon(\theta)$ 具体可理解成像素级别的softmax交叉熵损失函数。

衡量candidate masks和bounding box的损失函数

$\varepsilon_{o}(\theta)=\frac{1}{N}\sum_{S}(1-IoU(B, S))\delta(l_B,l_S)$
$S$ 表示candidate masks，B表示bounding boxes， $I o U (B, S)$ 表示B和S的交并比。 $\delta$ 等于1，如果B和S的所属类别相同，否则等于0。对于一幅图像的每个bounding box，只有一个S为非背景。当像素被多个bounding box覆盖时，该像素属于面积最小的bounding box所属的类别。

选取condidate masks当Ground Truth的pixel-level分类损失函数

$\varepsilon_r(\theta)=\sum_{p}e(X_{\theta}(p),l_S(p))$

这个损失函数即第一个公式，区别就是从candidate masks中选取一个当作ground truth，从而计算这个损失。选取策略使 $\varepsilon_{o} + \lambda\varepsilon_{r}$ 最小，由于一幅图像产生2k个candidate masks S，因此在训练过程中选取 $\varepsilon_{o} + \lambda\varepsilon_{r}$ 最小的5个 S，再从这5个中随机选取1个 S 当作ground truth。
这个函数目的在于从candidate masks当中选取与bounding box最相近的S。

最后的损失函数

$\sum_{i}(\varepsilon_{o} + \lambda\varepsilon_{r})$

$i$ 表示训练集中第i个图像， $\lambda=3$ 。

实验结果

在Pascal VOC12验证集上能使用Multiscale Combinatorial Grouping（MCG）生成candidate masks mIOU达到62.0，使用Selective Search（SS）和Geodesic Object Proposals（GOP）分别为59.5，60.4。
其最高的mIOU=62.0，全监督的mIOU=63.8。
注：最终的结果使用了Dense CRF^[6]做post-process，Dense CRF高大上点说可以增强模型预测的分割Mask的空间连续性，通俗点说就是以模型预测的分割Mask以及一些高斯核参数作为输入，输出增强后的分割Mask，详情可见论文。

总结

训练速度很慢，因为要对2k个candidate masks计算 $\varepsilon_{o} + \lambda\varepsilon_{r}$ 。
论文使用的网络为VGG16，其使用ground truth的全监督训练验证集结果才63.8，很低。这样该论文与WSSL（67.6）、SDI（69.1）、BCM（69.8）不能粗暴地做对比，虽然他们都是用的VGG16，但是WSSL、SDI、BCM是DeepLab-LargeFOV的大感受野的VGG16，这篇论文是DeepLab-SmallFOV的小感受野的VGG16。

WSSL^[2]

资源链接

pdf：Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
源码：deeplab-v1-caffe-code
训练好的模型：DeepLab_Models
博客：
- 论文阅读笔记：Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
- 【论文总结】weakly- and semi-supervised learning of a DCNN for semantic Image Segmentation

框架

对于一幅图像（图中Input），经过一个网络（Deep Convolution Neural Network，即DCNN），此时会得到相应类别的Score map，再经过双线性插值（Bi-linear Interpolation）恢复成原图像大小，最后经过Dense CRF^[6]（Fully Connected CRF）做后处理，得到分割后的Mask（图中的Final Output）。
举例详细来说的话，输入一幅RGB图像，大小为 $3 * H * W$ ，经过VGG16（即DCNN，下采样3次，每次图像缩小2倍），输出大小为 $C*\frac{H}{8}*\frac{W}{8}$ 的feature maps，对每个channel进行softmax之后，再取每个channel的最大值所在的类别，即可得到最后的大小为 $\frac{H}{8}*\frac{W}{8}$ 的score map，再经过双线性插值（上采样8倍），得到大小为 $H * W$ 的score map，最后Dense CRF做后处理即可得到最后的分割Mask。
对于这篇论文来说，图像输入大小为 $3 * 321 * 321$ ， $C = 21$ ，Pascal VOC共20类物体+1类背景。
注：由于WSSL的Box Supervision部分是基于DeepLab-V1^[5]这篇论文，因此我把DeepLab-V1的框架拿了过来，易于理解。

损失函数

$s_p^c =\frac{\exp f(x_p^c)}{\sum_{c=0}^{C-1}\exp(f(x_p^c))}$
$J(\theta)=\sum_{p}y_p^c \log s_p^c$
$y_p^c$ 表示ground truth图像中第 p 个像素属于第 c 个类别， $f(x_p^c)$ 表示网络输出的feature maps（大小为 $\frac{H}{8}*\frac{W}{8}$ ）第 c 个feature map中第 p 个像素的值。
注：ground truth要下采样8倍，成 $\frac{H}{8}*\frac{W}{8}$ ，用的是最近邻插值。这个公式是我看源码理解写的公式。

Bbox-Rect和Bbox-Seg

由于WSSL的创新点使用EM算法来估计Fake Ground Truth有自相矛盾的地方，因此不介绍其EM算法。

这篇论文用到的弱监督思想很简单，构造了Bbox-Rect和Bbox-Seg两个数据集，然后用上面的全监督的框架训练网络。

Bbox-Rect数据集：使用标注好的bounding box来当作ground truth，bbox外的像素是属于背景这一类；bbox里的像素和该bbox一个类别，如果一个像素被多个bbox覆盖，则该像素属于面积小的bbox的类别。
Bbox-Seg数据集：在Bbox-Rect数据集的基础上，使用Dense CRF处理，最终即可得到Bbox-Seg数据集。还有一个处理是bbox中心的20%的像素类别和该bbox一致，bbox外的像素是属于背景这一类。

实验结果

该论文使用了VGG16的Small FOV和Large FOV两个版本，在Large FOV上，Bbox-Rect在Pascal VOC12验证集上mIOU=50.7，Bbox-Seg的mIOU=60.6，全监督（Strong）mIOU=67.6。我复现过，与论文所说一致。

总结

该论文创新点是使用了EM算法来估计Fake Ground Truth，进而使用Fake Ground Truth当作Ground Truth全监督地训练网络。但是在Box Supervision中，加了EM，在Small FOV版本的VGG16上有用（52.5-54.1），在Large FOV版本的VGG16上没有用（50.7-50.2）。
该论文公开了Bbox-Rect和Bbox-Seg两个数据集，因为这两个数据集是弱监督得到的，因此我直接计算了这两个数据集的验证集和Ground Truth的验证集之间的mIOU，Bbox-Rect为62.2，Bbox-Seg为71.1。论文的实验结果Bbox-Rect才50.7，Bbox-Seg才60.6。

SDI^[3]

资源链接

pdf：Simple Does It: Weakly Supervised Instance and Semantic Segmentation
源码：官方release；非官法的tensorflow代码
博客：
- 【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation

框架

这篇论文的框架和WSSL一致，只是用不同的弱监督算法生成Region Proposals当作Fake Ground Truth，如MCG、GrabCut等。下面简单介绍一下不同的生成Region Proposals的算法：

Box：其实和WSSL的Bbox-Rect一致，bounding box外的像素全是属于背景类别，bounding box里面的像素和bbox的类别一致。如果一个像素同时被多个bbox覆盖，则该像素类别和面积最小的bbox类别一致。见上图 $(c)$ 。
Boxⁱ：在上面Box的基础上，添加忽略区域（Pascal VOC的分割Mask边界也是忽略区域，像素值为255）。Bounding box外的像素类别为背景。Bounding box中心20%的区域像素类别与bbox类别一致，bbox内部其余像素为忽略区域。见上图 $(d)$ 。
GrabCut：使用GrabCut算法生成。Bounding box外的像素类别是背景。见上图 $(e)$ 。
GrabCut+：使用改进后的GrabCut算法生成。Bounding box外的像素类别是背景。见上图 $(f)$ 。
GrabCut+ⁱ：使用改进后的GrabCut算法生成，添加忽略区域，方法与Boxⁱ一致。Bounding box外的像素类别是背景。见上图 $(f)$ 。
MCG：使用MCG（Multiscale Combinatorial Grouping）算法生成。Bounding box外的像素类别是背景。见上图 $(h)$ 。
M $\bigcap$ G+：MCG算法生成的Region Proposals和 GrabCut+算法生成的做交集。见上图 $(i)$ 。

这篇论文训练方法与WSSL的一致，即把这些算法生成的Region Proposals当作Fake Ground Truth，用全监督的方法训练，和DeepLab-V1一致。Box和Boxⁱ训练了多轮。
每一轮的意思是：

首先拿Box或Boxⁱ的数据训练到收敛。
如果预测的分割Mask和Fake Ground Truth的IOU小于50%，再将Box或Boxⁱ当作Fake Ground Truth训练。
如果预测的分割Mask和Fake Ground Truth的IOU大于等于50%，使用Dense CRF做后处理用增强后的分割Mask当作Fake Ground Truth。

比如，在训练一轮完毕后，会有一些训练集的Bounding box满足和Box或Boxⁱ的IOU大于等于50%，有一些不满足。
注：GrabCut，GrabCut+ⁱ，MCG，M $\bigcap$ G+论文中提到训练一轮的性能就很不错，训练方法和WSSL的Bbox-Rect、Bbox-Seg一致，即训练到收敛+Dense CRF后处理。Box和Boxⁱ训练了多轮。

实验结果

在Pascal VOC12验证集上的mIOU。M $\bigcap$ G+该数据集，论文release了出来，按照WSSL的Bbox-Rect和Bbox-Seg方法训练完毕后，再使用Dense CRF后处理mIOU=65.7，其全监督的mIOU=69.1。

总结

DeepLab_ours表示DeepLab-V1的LargeFOV的，论文的Pascal VOC mIOU=69.1比DeepLab-V1论文的67.6高了1.5个点。因此论文的Box和Boxⁱ结果为61.2和62.7，其实和WSSL的Bbox-Rect的60.6应当属于一个level。虽然论文是训练了多轮。
论文创新点应该是实验很多，挺充分，例如GrabCut，GrabCut+ⁱ，MCG，M $\bigcap$ G+等实验。

BCM^[4]

资源链接

pdf：Box-driven Class-wise Region Masking and Filling Rate Guided Loss for Weakly Supervised Semantic Segmentation
博客：
- Box-driven Class-wise Region Masking and Filling Rate Guided Loss for Weakly Supervised Semantic Seg

框架

这篇论文很精细。首先是根据bounding box和Dense CRF生成Region Proposals当作Fake Ground Truth（例如WSSL的Bbox-Seg数据集），见上图 $(b)$ 。然后根据这些Region Proposals计算各个物体（一个bounding box对应一类物体）在bounding box的填充比例（Filling
Rates即占比） $FR_i，i为各个类别$ ，见图 $(c)$ ，狗填充比例为50%，猫的填充比例为62.3%。
下面说一下整体流程：

输入图像（ $3*H_{oral}*W_{oral}$ ），经过FCN作为backbone），输出feature maps ( $C 1 * H * W$ ，下采样8倍)，见图 $(d)$ 。
对backbone的feature maps接上几层卷积网络，输出 $N$ 个分支 $F_1,F_2,..,F_i,...,F_N$ ， $F_i$ 大小为 $C 2 * H * W$ ，接着分别对每个分支预测一个attention map $\alpha_i$ ，大小为 $H * W$ ，用对应类别的bounding box约束，最后对每个 $F_i$ 与相应的 $\alpha_i$ 做一个 spatial-wise masking乘积，得到对应的 $\phi_i$ ，大小为 $H * W$ ，见图 $(e)$ 。
如果不使用 $FR_i$ 约束，将 $\phi_1, ..., \phi_i, ..., \phi_N$ 组合起来即可得到最后的score maps，大小为 $N * H * W$ ，再与Fake Ground Truth计算loss，反向传播梯度。
使用 $FR_i$ 约束，这时需要考虑每一类的填充比例，很简单，只需要计算每一个score map的值最大的前 $FR_i$ 个像素的score值与对应Fake Ground Truth的loss，反向传播梯度。

损失函数

BCM损失

即用bounding box约束 $\alpha_i$ 的MSE损失函数：
$L_{bcm(i)}=\sum_{h=1}^{H}\sum_{w=1}^{W}||M_i(h, w)-\alpha_i(h, w)||_2^2$
$M_i(h, w)$ 即图像中第 $i$ 类在 $h, w$ 位置的bounding box mask值，值为0或1，0表示背景，1表示这一类的前景。

FR损失

即用填充比列约束的损失函数：
$FR_i=\frac{1}{N_i}\sum_{i=1}^{i=N_i}\frac{P_{proposal(i)}}{P_{box(i)}}$
注：这个 $N_i$ 表示训练集中第 $i$ 类的bounding box的数量，即每一类的平均填充比例。区别与前面的 $N$ 表示类别标签数量，论文公式与框架图不一致，统一用 $i$ 表示第 $i$ 个类。
$L_{fr}=\sum_{i=1}^{N}\sum_{j=1}^{top(FR_i)}L_i(j)$
注：此时的 $L_i$ 为前面所介绍的基于pixel-level的多分类损失，即softmax交叉熵损失函数。

最后的损失函数

$L_{all} = L_{fr} + \lambda \sum_{i=1}^{N}L_{bcm(i)}$
注：论文更精细的把每一类又划分出各个子类，因为每一类物体由于形状的不同，其填充比例也不同。我这里就不再做叙述，详情可见论文。

实验结果

在消去实验中，会发现BCM和FR-loss均起到了作用。

在Pascal VOC12的验证集上，其最后的mIOU=66.8，是现在的SOTA。其依然使用了Dense CRF做后处理，其全监督的mIOU=69.8。

总结

BCM这篇论文做得很精细，可以说是在WSSL的BBox-Seg数据集上，通过使用attention map预测的每一类的mask更趋向于前景。通过使用每一类的不同填充比例这个先验知识，使得预测的每一类mask更趋向于中间一团的形状。
这篇论文最后预测的分割mask趋向于一团的情况，在不加Dense CRF的情况下，其预测的边缘是不如Boxsup、WSSL和SDI的。
这篇论文很精细，没有release源码，担心其是否solid，是否能很简单的train出来还是得需要大量的调参数。

参考

[1]Dai, Jifeng, Kaiming He, and Jian Sun. “Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation.” Proceedings of the IEEE International Conference on Computer Vision. 2015.
[2]Papandreou, George, et al. “Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation.” Proceedings of the IEEE international conference on computer vision. 2015.
[3]Khoreva, Anna, et al. “Simple does it: Weakly supervised instance and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[4]Song, Chunfeng, et al. “Box-driven class-wise region masking and filling rate guided loss for weakly supervised semantic segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[5]Chen, Liang-Chieh, et al. “Semantic image segmentation with deep convolutional nets and fully connected crfs.” arXiv preprint arXiv:1412.7062 (2014).
[6]Krähenbühl, Philipp, and Vladlen Koltun. “Efficient inference in fully connected crfs with gaussian edge potentials.” Advances in neural information processing systems. 2011.

《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
《Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision》论文阅读之DCMS 山水之间2018 无人驾驶 Paper Reading 大数据轨迹预测自动驾驶人工智能
目录摘要1简介2相关工作3.方法3.1结构3.2双重一致性约束3.3多伪目标监督3.4学习4实验4.1实验装置4.2实验结果4.3消融研究4.4泛化能力5限制6结论DCMS：具有双重一致性和多伪目标监督的运动预测香港科技大学暂无代码。摘要我们提出了一种具有双重一致性约束和多伪目标监督的运动预测新框架。运动预测任务通过结合过去的空间和时间信息来预测车辆的未来轨迹。DCMS的一个关键设计是提出双重一致
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
【论文阅读|cryoET】本周粗读汇总吃吃今天努力学习了吗冷冻电镜三维重建论文阅读
论文1：CryoDRGN-ET：深度重建生成网络以可视化细胞内动态生物分子Abstract虽然冷冻电子断层扫描可以以分子分辨率揭示结构，但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型，并且可以捕获成分和构象不同的状态。通过原位恢复肺炎支原体核糖体中
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation 进击的乔洋论文阅读语言模型人工智能计算机视觉
【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上（Inthisregard），针对WSSGG的研究主要利用图像标题（imagecaption）来获取非局部三元组，而主要关注将非局部三元组建立在图
Code Llama: Open Foundation Models for Code论文阅读 yang_daxia 大模型 llama codellama
整体介绍CodeLlama发布了3款模型，包括基础模型、Python专有模型和指令跟随模型，参数量分别为7B、13B、34B和70B。这些模型在长达16ktokens的序列上训练。都是基于Llama2。作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
VIT论文阅读： A Image is Worth 16x16 Words Undefined游侠论文阅读
简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor
【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation Bosenya12 模型窃取科研学习论文阅读知识蒸馏成员推理攻击黑盒
摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

基于Box Supervision的弱监督图像语义分割

简介

为什么要“弱监督”做图像语义分割

基于Box Supervision的弱监督图像语义分割

BoxSup[1]

资源链接

框架

损失函数

pixel-level的分类损失函数

衡量candidate masks和bounding box的损失函数

选取condidate masks当Ground Truth的pixel-level分类损失函数

最后的损失函数

实验结果

总结

WSSL[2]

资源链接

框架

损失函数

Bbox-Rect和Bbox-Seg

实验结果

总结

SDI[3]

资源链接

框架

实验结果

总结

BCM[4]

资源链接

框架

损失函数

BCM损失

FR损失

最后的损失函数

实验结果

总结

参考

你可能感兴趣的:(论文阅读)

BoxSup^[1]

WSSL^[2]

SDI^[3]

BCM^[4]