sayhi_yang

【paper-note6】去摩尔纹相关研究现状

摘要

这篇文章写一个去摩尔纹相关研究的综述，理清自己前段时间看的论文。

上一篇paper note提出了摄屏图像去摩尔纹这个问题后，我去找了一下这个领域至今为止的相关工作，找到了大概8篇论文，看了其中4篇，做个综述，分别是：

《Moiré Photo Restoration Using Multiresolution Convolutional Neural Networks》Yujing Sun TIP2018
《MOIR ´E PATTERN REMOVAL WITH MULTI-SCALE FEATURE ENHANCING NETWORK》Tianyu Gao ICMEW2019
《Multi-scale Dynamic Feature Encoding Network for Image Demoir´eing》Xi Cheng ICCVW2019
《Mop Moire Patterns Using MopNet》Bin He ICCV2019

以下用作者的姓代替论文：Sun、Gao、Cheng、He。

方法

Sun `TIP2018`

主要工作

Sun的工作已经在上一篇论文笔记中详细阐述，这里就简要介绍一下：

首先提出摄屏图像去摩尔纹这个问题，提出摄屏图像的摩尔纹的特点是多频率的（a moir´e pattern spans over a wide range of frequencies）。
针对摩尔纹多频率的特性，提出一个多分辨率网络，对原始feature map做下采样（用了S2的conv），在各自的分辨率上顺序卷积，然后利用反卷积（转置卷积）进行上采样，最后紧跟一个C3的conv3x3输出RGB图像，把每一个分支的输出简单相加，得到输出。loss用到是L2距离。
创造了一个大规模摩尔纹数据集，用的是ImageNet ISVRC 2012 dataset，放在三个屏幕上，用三款手机进行拍摄，每个组合得到15000对图像，共15000*9 = 135000对图像。这成为后续工作的公开数据集。

结果

论文拿了7+1种方法进行对比，多出来的1种是作者把上述网络最后的sum变成了concate，输出C32的feature map，紧跟两个C32的Conv3*3，结果如下。

虽然V_Concate和U-Net有时候会有更高的PSNR，但是其视觉效果并不如Our method。

Future Work

作者还提出了该方法的limit和future work。

首先，有一些failure example，没有说原因，但是我猜是因为网络不能处理低频摩尔纹和大面积色块导致的。

其次，作者说创建数据集的时候可能对齐没做好，或者是拍照时产生移动模糊，或者是摩尔纹自身就破坏了高频信息等等。
再者，可以对摩尔纹进行分类，在处理的时候加入类别信息可能会提升效果。这点应该能解决问题1。
最后，需要一个更好的描述摩尔纹的方式（除了PSNR和SSIM），perceptive loss&GAN loss？。

Gao `ICMEW2019`

这是大连理工大学一个组在ICME Worshop2019上的一个工作，其数据集采用的是上面提出的ImageNet Screen Shot Dataset(ISSD)，借鉴了Sun的思想，提出一个多尺度网络，类似于U-net的encoder-decoder结构，并在跳跃连接的时候应用特征增强分支（FEB），将低分辨率特征融合到高分辨率特征中。loss也是L2 loss。

主要工作

针对摩尔纹的多频率特性，提出一个多尺度特征增强网络（MSFE），基于U-net，结构如下。input layer和output layer都是用了Conv5*5。

其中，Residual Block就是用了何凯明在Resnet中提出的BasicBlock（ $B_1B$ ）：

把左边的下采样当作encoder，用Maxpool，右边的上采样当作decoder，用Deconv，sacle factor是2。在对应的层之间采用concatenate加入跳跃连接：
$y_i = f[up(y_{i+1}), x_i]$
特征增强分支（FEB）

FEB加在每一个跳跃连接中间，将低分辨率的特征融合进高分辨率的特征，融合的操作原文中叫做semantic embedding operation（X），这是Zhang[1]提出来的，就是element-wise的乘法。

缺点很明显，只把低分辨率的特征嵌入到高分辨率特征中，没有把高分辨率信息融合到低分辨率特征。

结果

论文拿了Sun的方法、U-net和U-net+FEB以及自己的MSFE（baseline+feature enhancing branch+multi-scale）做比较，数据集还是ISSD，结果如下

不过为什么Sun自己说有26.77的PSNR，到了他这里就只有21.24了，MSFE的结果也是一般般。

Future Work

这个方法的缺点很明显，层数少；只考虑从下往上融合，没考虑从上往下融合；用了U-net，这种很thin的结构，先下采样到低分辨率再上采样到高分辨率，如果用resnet这种很深的结构效果应该会好。

Cheng `ICCVW2019`

本文是Aim 2019 Demoireing Challenge比赛Fidelity组第二名，Perceptual组第三名，数据集是AIM官方提供的，所用的模型叫做多尺度动态特征编码网络，主要包含两方面：1. Multi-scale 2. Dynamic Feature Encoding。中间用的激活函数是PReLU，loss是Charbonnier loss。

数据集也比较简单，没有Imagenet那么复杂。这个数据集来源是AIM 2019 demoiring challenge[7]的数据集，据说也是合成的。

主要工作

Multi-Scale

多尺度和上面的论文一样，分了四个Branch，每个branch下采样1/2，下采样操作用S2的conv，在branch的最后用Subpixel Conv上采样。

随后每个分支紧跟一个Scale module操作，可以理解为每个branch分配一个权重，让网络自动去学习其权重大小，具体实现形式可以是每个feature map* factor，最后把每个分支的输出相加，得到最后的output。
Dynamic Feature Encoding

本文最重要的工作就是提出了Channel attention Dynamic feature encoding Residual block(CDR)和Dynamic feature encoding(DFE)，可以用下图解释。

CDR

CDR是上半部分，除了正常残差块的Conv层，还加入了一个CA层（Channle Attention），CA操作分为squeeze和excitation两部分，squeeze即求每个channle的均值，得到一个1*1*C的特征：

excitation是一个bottleneck：

原文说 $W_u$ 和 $W_d$ 是两个conv1*1, C1/16，但是这样就不是bottleneck了，所以我猜 $W_u$ 是（C, 1/16C)， $W_d$ 是(1/16C, C)。

除了Channel级别的attention，还在全局残差之前加入了一个Non-local层（NL），region-level的non-local[2]操作旨在探索当前分辨率的自相似性。
DFE

摩尔纹模式是动态变化的，在一幅图像的不同地方有不同的尺度和角度，针对这种特点，收到任意图像风格迁移[3, 4]的启发，采用了一个bypass结构，并用AdaIN（adaptive instance normalizeation）连接。

如上图下半部分，先计算 $x^{enc}$ （conv后）的均值和方差：

然后把均值和方差传输主干网络的AdaIN中，计算 $x_{i+1}$ :

其中 $\mu_i$ 和 $\sigma_i^2$ 是指上半部分主干网络经过残差块的特征均值和方差，以此来动态归一化。

Loss function

作者提出，直接用MSE会造成过度平滑和模糊，因此采用Charbonnier loss，只是多了一个charbonnier penalty $\epsilon$ ，设为0.001。

结果

论文找了三个方法做对比，分辨是Sun，Gao的MSFE和用于降噪的DnCNN，结果如下。

Future Work

优点：

这篇论文到处用Attention结构，包含了channel级别的Attention（CDR）和region级别的Attention（Non-local block）。
DFE的思想引入的bypass结构和AdaIN块连接，能够进行动态特征编码。

问题也是很明显的：

虽然用了多尺度网络，但是各个分辨率之间没有进行信息交互（Feature Enhance/Interaction）。
高分辨率的特征的卷积层少，低分辨率的卷积层多。理论上应该反过来，越高的分辨率应该有需要越多的卷积层，因为高分辨率能够学到的东西多，低分辨率能够学到的东西少。

He `ICCV2019`

本文提出了一个MopNet（Moir´e pattern Removal Neural Network），包含了三个部分：

多尺度网络特征整合，解决摩尔纹的多频率问题。
RGB Channel级别的边缘检测，解决色彩通道之间的不平衡强度（彩色摩尔纹）。
摩尔纹类别分类器，在网络中加入类别特征。

主要工作

多尺度网络

其多尺度网络参考了DenseNet的结构，中间采用了bottelneck block（之后有空可以细看DenseNet），DenseNet的特点就是较少的channel深度，每一层都把之前所有的feature map拼接起来作为输入，能够提高feature map的利用率，减少网络训练时中间变量的存储量。

在每个尺度的输出上应用Nonlinear Upsampling上采样至原图像相同大小，再拼接，随后是一个Squeeze & Excitation，作用和上一篇论文一样，做了一个Channel级别的Attention，能够选择性的增强某个尺度的输出特征。公式如下：
RGB Channel级别的边缘检测器

下面两个模块都是一些tricks，给主干网络增加信息，该模块针对每个RGB Channel进行边缘预测，输入为用sobel算子检测并增强过的摩尔纹图像 $I_s$ ，假设 $E_{sr}, E_{sg}, E_{sb}$ 是 $I_s$ 的sobel算子检测出来的edge信息，用三个E增强 $I_s$ ，逐Channel相加（WxHx3），输入到edge predictor中，输出干净图像的Edge，训练的时候groudtruth可以用clear图像的sobel edge。公式如下：

网络结构文中没有说，目测类似于U-net，或者FCN这种形式，在每一层的的feature map上应用non-local block，探索其自相似性，以此帮助弱边缘获得更强的相应（通过对强边缘加权）。

当网络得到原始图像的边缘时，送入特征提取层块得到 $F_e$ ， $F_e$ 与主干网络的输入特征拼接，目的是保边并防止过度平滑。
摩尔纹类别分类器

对摩尔纹进行分类的思想在Sun那篇文章就提出来了，因为缺乏统一标准和工程量大一直没有人做，本文算是一个很好的尝试。

本文根据摩尔纹的频率，形状，颜色进行分类，分别为：高频和低频；直线和曲线；单色和多色。可以看到都是二分类，故每张图片就会有三个属性。

这三个属性都是标量（0or1？），经过上采样后拼接起得到 $C$ ， $C$ 再和主干网络的特征 $F_m$ 拼接起来，输入到 $g_r$ 生成最后的output。

$g_r$ 包含了一个SE block和几个前馈的卷积层。

这里可以看到：
1. 网络的特征融合操作都是Concat，这也符合了DenseNet的思想。
2. SE block可以做为网络Channel级别自动加权的工具，比线性相加要好。
整体结构

整个网络的目标函数由如下三个loss组成：

其中 $L_{E,e}$ 和 $L_{E,o}$ 分别代表了预测edge和真实edge的L2距离，output和groudtruth图片的L2距离， $\alpha$ =0.1， $L_F$ 代表了feature-based loss，从预训练中的VGG-16的relu1_2层中提取得到的浅层特征。

首先单独训练了edge prediction 网络50个epochs，训练分类网络20个epochs，然后固定分类网络，端到端的训练整个网络150个epochs。

数据集也是Sun的那个数据集，摩尔纹分类网络的数据集是从135000对图片中采样12000对图片，人工打标，用预训练的VGG网络fine-tune达到分类器的目的。

结果

拿了DnCNN，VDSR，U-Net，Sun的DMCNN定量比较，在定性比较的时候增加了Yang[5]的传统方法，和photoshop的descreen[6]方法做对比，结果如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hdXSwAUi-1573889744545)(https://raw.githubusercontent.com/Badstu/pic_set/master/img/20191116151923.png)]

作者有点偷懒，指标上面直接用了Sun文章里面的数据，不过PSNR还是比Sun高，有说服力。剩下的消融研究是增加工作量的。

Future Work

除了把方法泛化到纹理图像上这种正常操作之外，作者还探索了高分辨率摩尔纹图像的去摩尔纹，受限于显存，高分辨率图像无法在显卡中完整的计算，本文的方法是先下采样HR-input为LR-input，经过去摩尔纹后得到LR-result，再送入预训练好的超分辨率网络，得到HR-input，结果也不错，之后可以考虑把超分和去摩尔纹结合起来。

limitation也是有的，当碰到砂石地面等不规则不稳定的背景时，网络也会出错，主要是由于这种图案的边缘特征很难确定，有待改进。

参考文献

[1] Zhenli Zhang, Xiangyu Zhang, Chao Peng, Xiangyang Xue, and Jian Sun, “Exfuse: Enhancing feature fusion for semantic segmentation,” in Computer Vision - ECCV 2018 - 15th European Conference, Munich,Germany, September 8-14, 2018, Proceedings, Part X, 2018, pp. 273–288.

[2] Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, and Lei Zhang. Second-order attention network for single image super-resolution. In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition, pages 11065– 11074, 2019.

[3] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceed- ings of the IEEE International Conference on Computer Vision, pages 1501–1510, 2017.

[4] Hao Wang, Xiaodan Liang, Hao Zhang, Dit-Yan Yeung, and Eric P Xing. Zm-net: Real-time zero-shot image manipula- tion network. arXiv preprint arXiv:1703.07255, 2017

[5] Jingyu Yang, Xue Zhang, Changrui Cai, and Kun Li. Demoir´eing for screen-shot images with multi-channel layer decomposition. In IEEE Visual Communications and Image Processing, pages 1–4. IEEE, 2017.

[6] http://www.descreen.net/eng/soft/descreen/descreen.htm

[7] YUAN, Shanxin, et al. AIM 2019 Challenge on Image Demoireing: Dataset and Study. arXiv preprint arXiv:1911.02498, 2019.

论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
A survey on instance segmentation: state of the art——论文笔记栀子清茶 1024程序员节论文阅读计算机视觉人工智能笔记学习
摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。一、简介第一部分“简介”主要介绍了实例分割的背景、定义和挑战。
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Zhouqi_Hua 大模型论文阅读人工智能 chatgpt 论文阅读机器学习深度学习语言模型
Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo
[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比心心喵论文笔记论文阅读深度学习人工智能
https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/
LLM时代的小模型思考：《What is the Role of Small Models in the LLM Era: A Survey》论文笔记 FrancisQiu learning nlp paper reading 论文阅读
论文：WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者：LihuChenetal.单位：ImperialCollegeLondonAbstract问题：扩大模型大小会导致计算成本和能耗呈指数级增长，这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型（SMs）经常用于实际环境中，引发了关于小模型在LLM时代的作用的重要问题，且关注有限方法
【论文笔记】3DGS压缩相关工作2篇 AndrewHZ 深度学习新浪潮论文阅读 3DGS 计算机图形学算法三维高斯飞溅压缩方法
1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期
[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案心心喵论文笔记剪枝算法机器学习
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
论文笔记（七十二）Reward Centering（一）墨绿色的摆渡人文章论文阅读
RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
论文笔记：Enhancing Sentence Embeddings in Generative Language Models UQI-LIUWJ 论文阅读语言模型人工智能
2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
多模态论文笔记——DiT（Diffusion Transformer）好评笔记多模态论文笔记深度学习 transformer DiT 人工智能机器学习 aigc stable diffusion
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：[email protected]）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》 I_dyllic 深度学习论文阅读深度学习人工智能
基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过
TC-LLaVA论文笔记 0yumiwawa0 计算机视觉论文阅读
RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q
CNN-day5-经典神经网络LeNets5 谢眠深度学习深度学习计算机视觉人工智能
经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN博客1网络模型结构整体结构解读：输入图像：32×32×1三个卷积层：C1：输入图片32×32，6个5×5卷积核，输出特征图大小28×28（3
[论文笔记] llama3.2 蒸馏心心喵论文笔记论文阅读
参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
[论文笔记] Deepseek技术报告心心喵论文笔记论文阅读人工智能
1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
[论文总结] 深度学习在农业领域应用论文笔记14 落痕的寒假论文总结深度学习论文阅读人工智能
当下，深度学习在农业领域的研究热度持续攀升，相关论文发表量呈现出迅猛增长的态势。但繁荣背后，质量却不尽人意。相当一部分论文内容空洞无物，缺乏能够落地转化的实际价值，“凑数”的痕迹十分明显。在农业信息化领域的顶刊《ComputersandElectronicsinAgriculture》中也大面积存在。众多论文在研究方法上存在严重缺陷，过于简单粗放。只是机械地把深度学习方法生硬地套用到特定农业问题中
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑心心喵论文笔记深度学习人工智能
一、bug1、pre-tokenize的时候,会OOM解决：在yaml文件中添加streaming参数#tokenizestreaming:Truemax_steps:10000https://github.com/hiyouga/LLaMA-Factory/blob/3a023bca2a502810a436cfba7708df164754ea62/src/llamafactory/hparams
[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）心心喵论文笔记论文阅读
pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors Activewaste #Anchor-free #特征层面 #小目标检测 DuBox anchor-free
&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

【paper-note6】去摩尔纹相关研究现状

摘要

方法

Sun TIP2018

主要工作

结果

Future Work

Gao ICMEW2019

主要工作

结果

Future Work

Cheng ICCVW2019

主要工作

结果

Future Work

He ICCV2019

主要工作

结果

Future Work

参考文献

你可能感兴趣的:(论文笔记)

Sun `TIP2018`

Gao `ICMEW2019`

Cheng `ICCVW2019`

He `ICCV2019`