我只是一只自动小青蛙

道路场景语义分割综述_王飞龙

挖坑：暂时还没有理解的定义或者方法，但因为暂时不重要留到后面看

论文结构

一、引言

1、道路场景语义分割定义

针对道路场景进行语义分割是对采集到的道路场景图像中的每个像素都划分到对应的类别，实现道路场景图像在像素级别上的分类。

2、道路场景语义分割面临的挑战

精确性

首先要克服不同目标对象的相异性和相似目标对象的相似性;其次还要注意分割对象所处场景的复

杂性；最后一些外界因素如光照,拍摄条件、拍摄设备和拍摄距离的不同也会使得目标物体与图片上差异较
大,进而影响分割的效果

实时性

二、图像语义分割发展历史

语义分割发展总历史：

传统语义分割：主要依靠图像纹理、颜色以及其他一些简易的表层特征和外部结构特征进行图像分割。以此方式得到的分割结果相对粗陋，精度较低，且无相关标注，即只是将图像分割成了若干块，但每一块是什么不知道，需要人工指定。
传统方法与深度学习相结合的语义分割：首先使用传统方法对图像进行初步处理，得到目标区域。而后使用卷积神经网络（CNN）对目标特征进行学习，形成合理的分类器，实现目标的自动标注。此时算法已经能够将图像分成若干个部分，并标注出每一个部分是什么。
基于深度学习的语义分割：取得的效果较前两种方法好

2.1传统图像语义分割算法

基于阈值的语义分割

基于边缘的语义分割

基于聚类的语义分割

基于图论的语义分割

N-cut（Normalized cut）算法
Grab cut 算法

基于区域的语义分割

2.1.1N-cut算法

算法参考文献：

Yang Yupeng, Zhao Weidong, Wang Zhicheng, et al. Research on image-based imagesegmentation[J].Computer and Modernization,2010(1):113-116.
杨宇鹏, 赵卫东, 王志成等.基于图论的Normalized Cut图像分割方法研究[J]. 计算机与现代化,2010(1):113-116

算法思路：

该分割方法以图片为单位，将其定义为“图”并作为分割图像的依据。以图为单位，然后计算权重图(weighted graph)，然后将其分割成一些具有相同特征的区域。其中最小分割算法（Min-cut algorithm）作为其中的一个重要的方法。

最小化切割算法：

如下式一个图的权重图，我们要把他分成两部分，则沿着两条权重最小的0.1的边进行切割就是最小化切割。

算法缺点：

最小化切割也存在边缘角元素缺失等缺陷。

2.1.2Grab cut算法

参考文献：

Qiuhua Zheng,Wenqing Li, et al. An Interactive Image Segmentation Algorithm Based on Graph Cut[J].Procedia Engineering,2012,29

Han Xu. Research on Grabcut based Automatic Image segmentation algorithm [D]. Beijing: Beijing PrintingInstitute, 2018: 8-9

Liu Lei, Shi Zhiguo, Su Haoru, et al. Image segmentation based on high order Markov random fields [J].Computer research and development, 2013,50 (9): 1933-1942.
刘磊 , 石志国 , 宿浩茹等 . 基于高阶马尔可夫随机场的图像分割 [J]. 计算机研究与发展,2013,50(9):1933-1942

算法思路：

利用到混合高斯模型以及吉尔斯能量方程，基于RGB对图像进行建模，在求得方程最优解过程中采用迭代方式，最终获取高斯模型的最优参数解。从而实现图像分割。

算法缺点：

需要较好的算法初始化数值

2.1.3最新的传统语义分割算法

1）轮廓检测法

参考论文：

Pablo Arbeláez, Maire M , Fowlkes C , et al. Contour Detection and Hierarchical Image Segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 33(5):898-916.

算法思路：

首先利用 GPB 方法对任一像素作边缘的实际概率进行合理测算，而后基于该测算结果形成不同的闭合区域，随后利用 UCM 法使不同的闭合区间进行转化，形成层次分明的树状结构。

2）随机决策森林分割法

算法论文：

Zhang C , Xue Z , Zhu X , et al. Boosted random contextual semantic space based representation for visual recognition[J]. Information ences, 2016, 369:160-170

算法思路：

整体此路与轮廓法相似，但与轮廓法不同的是，该检测法主要由不同的决策树进行组合形成分类器对闭合区域进行分类。

3）MCG分割法

算法论文：

Pont-Tuset Jordi, Arbelaez Pablo, et al Multiscale Combinatorial Grouping for Image Segmentation and Object Proposal Generation.[J]. IEEE transactions on pattern analysis and machine intelligence,2017， 39（1）：128-140

算法思路：

首先使用 GPB-UCM 法对图像轮廓进行分割处理，得到不同的块状结构，而后使用随机法形成的分类器做进一步的分割处理。

2.2传统方法与深度学习相结合的图像语义分割方法

算法思路：首先使用传统方法对图像进行初步处理，得到目标区域。而后使用卷积神经网络（CNN）对目标特征进行学习，形成合理的分类器，实现目标的自动标注。

三、基于深度学习的语义分割算法

相较于传统语义分割的优点：基于深度学习的语义分割方法更能获取更多，更高级的语义信息来表达图像中的信息

研究重点：提高语义分割精度

重大技术转折点：FCN（全卷积）模型初步实现像素级语义分割

FCN论文及源码：

论文：Evan Shelhamer, Jonathan Long, Trevor Darrell. Fully Convolutional Networks for Semantic
Segmentation[M]. IEEE Computer Society, 2017， 39（4）： 640-651.
源码：https://github.com/shelhamer/fcn.berkeleyvision.org

根据网络训练方式的分类：

分类	优点	缺点
强监督	对于与训练集相似的测试集分割精度高	依赖密集标注的训练集，迁移效果差，对于未知场景分割效果差
弱监督	只需要图像级标注数据即可完成训练	需要大量训练数据，分割精度低于强监督
无监督	不依赖于密集标注的训练集，而且对未知环境分割效果好	目前分割效果差

3.1强监督语义分割方法

概述：需要大量像素级的语义标注样本，是无人驾驶领域语义分割的算法；弱监督和无监督的分割效果较差，无人驾驶用不了。对样本进行人工标注可以体现出大量有用的局部数据和细节特征，能在一定程度上大幅提升训练效果，增强分割精度。可以说，强监督学习模型是当前应用程度最广的分割模型，也是效果最佳、影响范围最大的算法模型

代表算法：全卷积神经网络（FCN）算法

全卷积网络结构示意图：

全卷积网络结构特点：

以一定数量其尺寸固定的卷积层，起到常规卷积网络中全连接层的作用；
全卷积网络（FCN）中包括的卷积层与采样层则分别涉及到上下、正反等多种类型，且上述层次在空间任意平移时保持结构不变

全卷积网络优点：

全卷积网络（FCN）中通过多个固定尺寸的卷积层承担传统结构中全连接层的任务，这种结构提升卷积神经网络的滑动灵活性，最终生成的预测图中包含稠密的输出图像，与神经网络在图片中的自由滑动密切相关。

原始全卷积网络缺点：

然而全卷积网络（FCN）仍然保留使用了卷积神经网络（CNN）中的池化层，池化层使得卷积神经网络增加了感受野并且进行了融合特征，但是连续的下采样，会导致细节丢失，极大地影响了分割的结果
较高的采样率会导致特征图大小和空间信息的损失

基于原始全卷积网络的发展：

共分为六类：基于扩大感受野的分割方法、基于概率图模型的分割方法、基于特征融合的分割方法、基于编码器-解码器的分割方法、基于循环神经网络的分割方法和基于生成对抗网络的分割方法。

3.1.1基于扩大感受野的方法

空洞卷积核扩张卷积似乎很像，但仍有一些区别？

1）空洞卷积（扩张卷积）：运用卷积神经网络对图像进行语义分割，其中的池化操作过程将会不断增大感受野的有效范围，并融合背
景信息。但该过程同样会使图像分辨率持续不断的下降，会造成部分空间信息遗失。空洞卷积（扩张卷积）在保证图像分辨率属性的前提下，在不减小覆盖范围的同时提升感受野，且保留特定像素的位置信息。

Yu Fisher， Koltun Vladlen． Multi-scale context aggregation by dilated convolutions［J］． arXiv preprint arXiv:
1511． 07122， 2015

2）扩张卷积原理：使用不同扩张率的扩张卷积，可以看出进行卷积操作时，扩张率越高，其感受野越大。

3）代表网络：

DeepLab v1：将空洞卷积应用到 VGG16网络，通过将 VGG16 的全连接层转换为卷积层，并将 VGG 模型第四个和第五个池化层之后的所有卷积层分别调整为不同扩张率的空洞卷积，恢复感受野至原图像大小，提升了模型分割的准确率。

Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and
fully connected CRFs[J].International Conference on Learning Representations, 2014(4):357-361

ENet：运用了 bottleneck 模块思维方式，对多个空洞卷积进行串行操作，以此调整感受野的实际区域大小，有效破解了特征分辨率持续下降等不良问题。参数少，实时性高。

Paszke Adam， Chaurasia Abhishek， et al. ENet: a deep neural network architecture for real-time semantic
segmentation［J］ .arXiv preprint arXiv: 1606． 02147.

DRN：立足 ResNet 网络基础，由两个不同扩张率的空洞卷积，对 ResNet 的末尾卷积层进行替换操作，以此不断增强空间有效信息。为了避免空洞卷积的循环利用引发的棋盘效应，需要借助移除残差和最大池化层等方法进行操作处理。最后通过全卷积等方法实现像素的输出操作。

Yu Fisher， Koltun Vladlen， Funkhouser Thomas． Dilated residual networks［C］ / / IEEE Conference on
Computer Vision and Pattern Recognition(CVPR) ， 2017: 636-644

4）扩张卷积的缺点及发展

缺点：在进行卷积操作处理时，容易形成一定的空间漏洞，以至于出现数据遗失、消息丢失等不良问题。在一个网络结构中循环反复利用空洞卷积势必会产生棋盘效应，也会使部分特征遗失，占用大量的运行空间，消耗大量的内存。
发展：

混合扩展卷积HDC：能够进一步扩大感受野，同时维持局部信息有关特征。但是由于卷积核的形状相对固定，模拟几何变换的处理能力相对较弱，适应图形变化的能力较差，提取不规则形状物体特征的能力也较差。

Fang, Y, Li, Y, et al, Face completion with Hybrid Dilated Convolution. Signal Processing-Image Communication, 80,2020:115664

可变形卷积：在进行卷积处理过程中，运用了有一定偏移量的采样操作，引入了可学习的一个偏移量，最终调整卷积核的形状，使其具有可变性。该种卷积模式能有效扩大感受野，增大图像区域，提高语义分割对图形变换的自适应能力，不断提高分割的精度和准确度。

Dai J, Qi H, Xiong Y, Li Y, Zhang G, Hu H, Wei Y. Deformable convolutional networks. In: Proc. of the IEEE Int’l Conf. on Computer Vision. 2017. 764-773

3.1.2基于概率图模型的分割方法

1）概率图模型（Probabilistic Graphical， PGM）:用于 CNN 的后期处理，以结构化预测的方式有效地优化物体边界，捕获图像上下文信息，使得局部特征与全局特征的利用率能得以平衡.

2）概率图模型缺点：计算量过大，训练时间长，消耗大量内存等方面的问题

3）两种代表性的概率图分割模型：

SegModel网络模型

Shen F, Gan R, Yan S, et al. Semantic segmentation via structured patch prediction, context CRF and guidance CRF[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（ CVPR） .2017: 5178-5186

DFCN-DCRF网络模型

Jiang J, Zhang Z, Huang Y, et al. Incorporating depth into both CNN and CRF for indoor semantic segmentation[C]//2017 8th IEEE International Conference on Software Engineering and Service Science (ICSESS). IEEE, 2017: 525-530.

3.1.3基于特征融合的分割方法

1）特征融合：将提取出的特征图进行相加或拼接融合。

2）特征融合优点：

在特征提取阶段，通过融合多尺度的特征信息，丰富特征图的语义信息
特征的利用阶段，通过融合不同层级的特征更好地利用全局有效信息，提高分割精度
通过融合不同层次、不同区域特征来捕获图像中隐含的上下文信息，能有效提高分割速率和分割效能，也能大幅度降低运行消耗

3）代表网络

特征金字塔网络：该网络通过调整高层特征、低层特征的连接形式，丰富各尺度下特征的语义信息

3.1.4基于编码-解码器的方法

1）编码-解码器：编码器通过由一系列卷积－池化操作，提取图像的主要特征信息。再通过解码器的上采样－转置卷积结构，逐步恢复图像的空间维度。依托编码器-解码器的基本方法，可以对低分辨率的图形进行特征处理和上采样操作，以此形式可有效解决分辨率不断下降的问题，可以高度还原像素的时空信息和图形的维度数据。

2）代表网络：

SegNet：采用 VGG-16 网络，利用该网络输出稠密的特征图，通过对稀疏图像的卷积计算实现对稠密图的恢复

A. Krizhevsky, I. Sutskever, G.E. Hinton. ImageNet classification with deep convolutional neural networks[C]. Advances in neural information processing systems, 2012, 1097-1105

U-net：该网络的编码解码结构作用不同且相互配合，起到完善细节恢复效果的作用。但只能处理2D图像。在此基础上提出的V-Net可以处理3D场景。

Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham,2015: 234-241.

3）改进方向

提高语义分割实际速度：ENet，LEDNet
对多个分辨率特征进行融合：DUpsamling
扩展感受野的有效范围：GCN
对多尺度多层级信息进行捕获：SDN

3.1.5基于循环神经网络（RNN）的方法

1）循环神经网络（RNN）：该种模型的主要优势特征在于，学习当前信息之外。能够实现对历史数据和历史记忆的递归处理，能够对图像内的序列信息进行提取操作，同时也能对图像语义关系合理建模获取有关数据信息。与此同时，该网络模式能与卷积层深入结合，并融入到神经网络结构中，以此形式对卷积层空间特征进行有效提取，也能实现对像素特征的深度提取。

Yang Li, Wu Yuxi, Wang Junli, Liu Yili. Review of cyclic neural networks [J]. Computer applications,2018,38 (S2): 1-6 + 26.
杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(S2):1-6+26.

3.1.6基于生成对抗网络（GAN）的方法

1）GAN网络：图形分割过程中，运用判别器对分割对象的局部属性、全局结构特点进行深入学习，以此获取不同像素间的有效空间关系

Wang Kunfeng, Gou Chao, Duan Yanjie, et al. Research progress and Prospect of generative countermeasure network Gan [J]. Acta automatica Sinica, 2017,43 (3): 321-332
王坤峰,苟超,段艳杰等.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332.

2）GAN网络优点：GAN 模型还具有能够识别数据真假，并持续产生新数据的能力。该方法仍存在较大提升空间。

3）GAN网络缺点：GAN 模型在运用过程中存在一定的不稳定性，尤其针对大数据图像，该方法的解释性、可延伸性存在不足，仍有较大的提升空间。

3.2弱监督语义分割方法

不需要像素级的标注样本，只需要图像级的标准样本即可。根据不同类型的弱监督信息，将弱监督图像语义分割分为六类：基于边界框级标注方法、基于涂鸦级标注方法、基于点级标注方法、基于图像级标注方法、基于混合标注方法以及基于附加数据源方法。

主要目的：降低标注内容获取的人工成本。

弱监督语义分割方法分类：

3.2.1基于边界框级标注方法

监督信息：包括整个物体的矩形区域

特点：该标注方法是众多标注方法（指在弱监督中）中较为复杂的一种，但是其包含了更多的语义信息，成本较低，分割性能较好。

代表网络：

BoxSup网络模型

Dai J, He K, Sun J. BoxSup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation. IEEE， International Conference on Computer Vision（ICCV）， 2015： 1635-1643.

3.2.2基于涂鸦级的标注方法

监督信息：包含涂鸦线条和涂鸦点的图像

基本原理：首先基于涂鸦点和涂鸦线条对图像进行标注处理，然后基于标注处理后的图片进行训练。

3.2.3基于点级标注方法

监督信息：标识位置信息，中心位置等

优点：同等预算，分割效果最优

3.2.4基于图像级标注

监督信息：这是一张包含xxx的图片？

优点：标注过程相对简单，不需要使用像素标注，样本获取相对容易，整体工作量相对较小

缺点：图像级标注的方法显得有些简单粗陋，很难取得良好的、符合预期的分割效果

3.2.5混合标注方法

监督信息：大部分弱监督图像和少量像素级标注图像

特点：实现了强监督和弱监督的优势互补

3.2.6基于附加数据源的方法

例如使用类标签作为关键词，以 web 库作为搜索源，运用全自动的检索方式获取有关视频资料。

3.3无监督语义分割方法

基本原理：无人工标注信息，通过分类器进行分类

无监督语义分割方法分类：

四、城市道路场景数据集

4.1常用数据集

4.1.1自动驾驶数据集

概述：PASCAL VOC 2012 数据集更多地应用于静态图像的测试; Cityscapes 和 CamVid 数据集更多地应用于动态场景和实时性较高的场景的测试

4.1.2交通标志

4.2性能评价指标

1）运行时间

2）准确度

像素准确度PA
平均准确率mPA
平均交并比mIoU(最受认可，应用最广的评价指标)
频率加权交并比FWIoU

4.3强监督语义分割方法性能对比

4.3.1准确率

概述：针对道路场景语义分割，基于 CityScapes 数据集，DeepLab V3+、 DenseASPP、 DUC+HDC、 PSPNet、 PSANet、 CCNet 和 DANet 等算法的 mIoU 值均超过了80%，分割精度基本满足对街道场景图像语义分割的精度要求，然而这些算法实时性上有所欠缺。 ENet、ESPNet、 ICNet 和 BiSeNet 这四种算法虽然分割准确率不如上述算法，但由于尺寸小，计算成本轻等特点，这些算法具有实时性强的优势。

4.3.2速度

在Cityscapes数据集上做实验：

4.3.3总结

BiSeNet 提出了用于高分辨率图像的浅层网络和快速下采样的深度网络，以在分类能力和感受野之间取得平衡，是目前在分割效率和准确性之间达到均衡最突出的算法之一，精度比DeepLab等高精度算法比低了5-10个百分点，但是速度是他们的几十倍。

Yu C, Wang J, Peng C, et al. Bisenet: Bilateral segmentation network for real-time semantic
segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV).2018: 325-341

BiSeNet1代码已经开源：https://github.com/CoinCheung/BiSeNet

BiSeNet2代码即将开源：https://github.com/ycszen/BiSeNet

而 FCN、和基于 FCN 的 DeepLab v1、 DeepLab v2 运行时间较长,无法满足实时图像分割的需求。而在 DeepLab 系列中， DeepLab v3+分割效果最好，主要是其吸取 DeepLab 系列方法的优点，并结合深度可分离卷积使模型得到简化，提高了分割效率，从而实现图像语义分割精度和速度的均衡。

【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读笔记—— Multi-attentional Deepfake Detection jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录Multi-attentionalDeepfakeDetection背景创新贡献方法注意图正则化的区域独立性损失注意力引导的数据增强实验Multi-attentionalDeepfakeDetection来源：CVPR2021作者：HanqingZhao1WenboZhou1,†DongdongChen2TianyiWei1WeimingZhang1,†NenghaiYu1单位：Unive
[论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision Heartache Doctor 笔记论文阅读笔记
Abstract将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。IntroductionNLP领域下，使用大量数据pretrain>使用高质量标注数据集。→\rightarrow→CV是否也
GLIDE论文阅读笔记与DDPM（Diffusion model）的原理推导大写-凌祁论文阅读笔记人工智能深度学习 python 机器学习计算机视觉
Abstract扩散模型（Diffusionmodel）最近被证明可以生成高质量的合成图像，尤其是当它们与某种引导技术结合使用时，可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更倾向于使用无分类器引导方法，无论是在照片真实感还是与文本描述的匹配度方面，该方法通常都能生成具有高度
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING 寻丶幽风 Background 论文阅读笔记流匹配扩散模型人工智能
FlowMatching论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。Flowmatching采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且Flow是基于NormalizingFlow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing 寻丶幽风论文阅读笔记论文阅读笔记理解生成模型多模态人工智能
Step1X-Edit论文当前图像编辑数据集规模小，质量差，由此构建了如下数据构造管线。高质量三元组数据（源图像、编辑指令、目标图像）。主体添加与移除：使用Florence-2对专有数据集标注，然后使用SAM2进行分割，再使用ObjectRemovalAlpha进行修复。编辑指令结合Step-1o和GPT-4o生成，然后人工审查有效性。主体替换与背景更改：使用Florence-2对专有数据集标注，
论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing 寻丶幽风论文阅读笔记论文阅读笔记多模态理解生成自回归扩散模型
Nexus-Gen论文Nexus-Gen采用预测图像嵌入作为中间条件，链接自回归模型和扩散模型，通过预填充自回归避免嵌入误差传播，突破传统外界LLM因条件压缩导致信息丢失，提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于Text-to-Image场景，模型侧重于图像质量或局部内容填充。而Nexus-Gen的架构设计突破了这一范式，不仅具备高质量图像生成能力，还可以执行
论文阅读笔记——PixArt-α，PixArt-δ 寻丶幽风论文阅读笔记论文阅读笔记 T2I 扩散模型文生图
PixArt-αPixArt-α论文仅使用28400美元，28M训练数据，训练时长为SD1.5的10.8%，只有0.6B参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于
《XMK-CKKS: Extended Multiple Key Homomorphic Encryption over CKKS》论文阅读笔记 stupidyccc 同态加密论文阅读笔记安全
《XMK-CKKS:ExtendedMultipleKeyHomomorphicEncryptionoverCKKS》中科院2区总结提出了xMK-CKKS,一种多密钥同态方案。客户端使用聚合公钥加密梯度，解密的时候需要所有客户端提供解密份额，协助服务器解密总和。基于FadAvg和XMK-CKKS提出一个ppfl模型。在半诚实模型下可以防止n-1个客户端和服务器的勾结。xMK-CKKS###setu
Adversarial examples based on object detection tasks: A survey》论文阅读笔记 2301_80355452 目标检测论文阅读笔记
这是一篇关于目标检测任务中对抗样本攻击的综述论文。文章介绍了深度学习在计算机中的应用，以及对抗样本攻击的相关概念和方法，其中重点讨论了目标检测任务中基于分类和回归的对抗样本攻击，并对其他相关攻击方法进行了总结，最后得出结论并展望未来研究方向。1.引言深度学习背景：深度学习在处理图像或视频数据方面具有优势，广泛应用于计算机视觉任务，但由于深度网络的复杂结构，其存在脆弱性，容易受到攻击。目标检测任务：
论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录AdvFilter:PredictivePerturbation-awareFilteringagainstAdversarialAttackviaMulti-domainLearning背景贡献相关工作对抗性去噪防御对抗性训练防御其他对抗性防御方法一般图像去噪创新公式方法多域学习实验AdvFilter:PredictivePerturbation-awareFilteringagains
【论文阅读笔记】Attention Is All You Need 时光机ﾟ论文阅读笔记
论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前，序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构，是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度，在两个机器翻译的任务上都得到了卓越的成果，且其训练
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
神经网络压缩实验-Deep-compression 无用技术研究所
首发于个人博客，结合论文阅读笔记更佳实验准备基础网络搭建为了实现神经网络的deepcompression，首先要训练一个深度神经网络，为了方便实现，这里实现一个两层卷积+两层MLP的神经网络classnet(pt.nn.Module):def__init__(self):super(net,self).__init__()self.conv1=pt.nn.Conv2d(in_channels=1,
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要