ChenTsingZheng

A Novel Two-stage Separable Deep Learning Framework for Practical Blind Watermarking论文阅读

A Novel Two-stage Separable Deep Learning Framework for Practical Blind Watermarking

Abstract

数字水印是一门重要的版权保护的技术，最近提出深度学习的端到端解码器编码器架构的盲水印技术。

缺点 1：单阶段的端到端训练(OET)有利于解码器和编码器的联合学习，但是噪声的攻击必须以可微分的方式进行模拟，这在实践中并不能总适用。
缺点 2：OET 经常遇到收敛缓慢的问题，而且在噪声攻击下往往会降低水印图像的质量

基于上述原因，作者提出了一个 2 阶段的可分离深度学习的框架下文为 TSDL，用于实际的盲水印。TSDL 由无噪声的端到端对抗训练（FEAT）和无噪声的仅解码器训练（ADOT）组成。在 FEAT 中开发了一个冗余的多层特征编码网络来获得编码器，而 ADOT 用于获得解码器，该解码器具有足够的稳定性和实用性，可以接受任何类型的噪声。

优点 1：更好的稳定性、更高的性能、更快的收敛速度
优点 2：抵抗高强度之前没有测试过的噪声

Introduce

盲水印技术以不可见的方式嵌入水印，并在没有任何副作用的情况下提取水印，为图像版权保护带来了另一条途径。一般来说，所有的盲目水印系统都关注两个特性：水印图像的质量和水印的鲁棒性。前者保证了水印的不可知性，后者则指导水印在各种噪声攻击下生存。

传统的盲水印方法通常分为两类，即空间和频域方法。然而，这两种方法在稳健性方面都有其局限性。A Robust Blind Watermarking Using Convolutional Neural Network.和 Finding robust domain from attacks: A learning framework for blind watermarking.首先提出利用同一网络来嵌入和提取水印。同时，Zhu 和 Ahmadi 分别提出了再编码器-解码器架构下采用单阶段端到端训练（OET）的水印方法，即编码器将水印嵌入到图像中，解码器从编码后的图像中提取水印信息。
编码器用于向输入图像添加水印，噪声层模拟对水印图像的噪声攻击，而解码器负责从噪声图像中恢复水印。

OET 的限制：

编码器和解码器必须用可区分的噪声层进行训练，这意味着噪声必须支持反向传播。然而，在实践中，大多数类型的噪声，如压缩(可能会出现不可微分的情况)，都不符合这一要求，甚至是黑箱。

每当引入一种新的噪声类型时，在重新训练过程中需要同时调整编码器和解码器的所有参数，这在计算上是相当昂贵的。此外，一旦显示了水印图像，就不可能召回原始图像进行再处理。因此，重新训练整个模型是很难挽回损失的。

OET 对超参数非常敏感，因为多个组件需要联合训练。给定一个新的噪声类型，学到的超参数通常不能很好地应对它。所以，损失函数总是朝着降低水印图像质量的方向收敛，以保证训练过程中的解码准确性。在[42]中提及这点了，HiDDeN 的劣势

基于此，作者介绍了一下自己提出的 TSDL 框架。

首先不同的是，在第一阶段训练中，作者没有引入任何噪声。换句话说，编码器需要在不看到任何噪声的情况下学习抗噪声的水印图案。为了实现这一目标，提出了一个冗余多级特征编码网络（RMFEN）作为编码器框架，它涉及到多层图像特征的水印信息的冗余联合编码。此外，受 ResNet[20]和 Ahmadi 等人[1]的工作启发，还引入了一个强度因子，用于灵活地控制鲁棒性和不可知性之间的权衡。通过测量常见的传统噪声和黑箱噪声攻击下的鲁棒性来分析方法的性能，黑箱噪声来自于封装在图像处理软件中的不可知的算法，很难模拟（如图 1 所示）。值得强调的是， TSDL 框架显示出对一些高强度噪音的抵抗力，这些噪音在以前的工作中没有被测试过，比如剪裁只保留了水印图像的 1%像素。

本文贡献：

提出了一个冗余多层特征编码网络（RMFEN）作为编码器框架，它可以在不看到任何噪声的情况下学习一个强健的水印模式。
与目前最先进的 OET 方法相比，拟议的框架表现出更好的稳定性、更高的性能和更快的收敛速度。还展示了在一些高强度的传统噪声攻击和黑箱噪声攻击下，所提出的模型的鲁棒性，这在以前是没有测试过的。
进一步讨论了所提出模型的水印模式，它将有助于进一步理解基于深度学习的水印机制。

Related Work

近年来，随着深度学习的兴起，许多研究人员将神经网络应用于水印技术。Kandi 等人的工作是第一个将 CNN 应用于水印的工作，其非盲目水印带来了比传统方法更好的隐蔽性和鲁棒性[22]。Mun 等人提出了一个基于 CNN 的盲目水印架构，并使用同一网络来嵌入和提取水印[30, 31]。Zhu 等人的工作，是第一个将对抗性网络引入盲目水印的工作，在空间域对水印进行编码[42]。很快，Ahmadi 等人引入了残差的概念，在变换域中嵌入水印，在没有对抗性网络的情况下实现了出色的鲁棒性和高质量的图像[1]。借鉴[42]和[1]的特点，本文设计了一个冗余的编码器-解码器模型，并提出了一个全新的两阶段可分离深度学习框架，更加灵活适用。
对抗网络：Goodfellow 等人[15]将对抗训练引入到生成对抗网络(GAN)中，用于估计生成模型。这对研究人员很有吸引力。GAN 的许多变体正在飙升，如 CGAN [28]，WGAN [4]，DCGAN [34]，InfoGAN [7]，这些都催生了 GAN 在各种图像任务中的应用。例如，文本到图像[35]，图像到图像[21]，图像标题[9]都是基于 CGAN 的。同时，也有一些作品试图弥补 GAN 的不足。Miyato 等人的工作是其中之一，通过应用频谱归一化，使对抗网络收敛更稳定[29]。

Proposed Framework

Model Architecture

总体架构如图：

由四部分组成：

编码器 E 用 $\theta_E$ 表示，将载体图像 $I_{co}\in R^{C*H*W}$ 和秘密信息 $\in [-1,1]^L$ 作为输入，生成编码图像 $I_{en} \in R^{C*H*W}$
噪声攻击部分：接收 $I_{en}$ 并同时使用噪声去破坏它，生成破坏后的图像的输出 $I_{no}$
解码器 D 用参数 $\theta_D$ 表示，从 $I_{en}$ 和 $I_{no}$ 恢复信息 $M^{'}$
对抗器 A 用参数 $\theta_A$ 表示，由提供的 $I_{en}$ 或 $I_{no}$ 评估给定图像是编码图像的概率。

嵌入过程：

编码器使用 $1\times 1$ 的卷积层放大载体图像的颜色通道。

然后用 5 个 $\times 3$ 大小的卷积核的卷积层进行特征提取和水印嵌入。

在嵌入水印的过程中，将复制的水印连接到每个卷积层的输入端以引入冗余。

最后，使用 $1\times 1$ 卷积层将多通道转化成 3 通道。解码器由一个 $1\times 1$ 卷积层和几个 $3\times 3$ 卷积层组成，以产生 L 通道图。(除了第一个 $1\times 1$ 卷积层，对抗器和解码器的结构是相似的)

编码器：在编码器中，消息 M 通过复制被扩展为一个三维张量 $1,1]^{L * H * W}$ 。作者这里认为：基于卷积神经网络的水印实质上是利用卷积图像的特征信息与消息信息进行共编码，模型可以学习基于不同层次图像特征的水印模式。
将复制的 3D 消息张量连接到每一层的输出特征 $\in R^{64*H*W}$ 同时新张量 $\in R^{(64+L)*H*W}$ 被输出到下一层，旨在充分利用不同层次的特征来融合水印信息称之为冗余多层特征编码网络(RMFEN)
经过这些卷积层，得到消息 M 的水印掩码，表示为 $I_m$ ，编码后的图像 $I_{en}=S*I_m$ ，其中 S 为强度因子来控制嵌入水印的强度。为了让载体图像 $I_{co}$ 和 $I_{en}$ 看起来更加相似，编码器的训练目标是通过更新参数 $\theta_E$ 来最小化 $I_{co}$ 和 $I_{en}$ 的距离：
$L_E=MSE(I_{co},I_{en})=MSE(I_{co},E(\theta_E,I_{co},M))$
解码器：需要强调的是对于有水印的图像，解码器的输出 $M^{'}$ 的分布尽可能的接近于-1 和 1，而对于没有水印的图像，其分布将接近于 0，所以这里采用的是二进制信息 $\in [-1,1]^L$ 而不是 $0,1]^L$ ，解码器训练的目标是通过更新参数 $\theta_D$ 来最小化 M 和 M’之间的差异:
$L_D=MSE(M,M^{'})=MSE(M,D(\theta_D,\widetilde{I}))$
其中 $\widetilde{I}\in \{I_{en},I_{no}\}$
对抗器：在对抗网络的挑战中，编码器会试图欺骗对手，导致对抗网络无法在 $I_{co}$ 和 $I_{en}$ 之间做出正确的判断。为了达到这个目标， ${L_A}$ 损失用于通过更新 θE 来改善 Ien 的视觉质量。
$L_A=log(1-A(I_{en}))=log(1-A(E(\theta_E,I_{co},M))$
相反，给定 $I_{co}$ 和 $I_{en}$ ，对手会像二进制分类器一样努力做出判断。通过最小化值函数[15]和更新参数 θA 来实现对抗训练:
$L_2=V(E,A)=log(1-A(I_{co}))=log(1-A(E(\theta_A,I_{co},M))$

Two-stage Separable Training

阶段 1：
无噪声端到端的对抗训练(FEAT)
在实验的编码器训练阶段，采用端到端的训练方法，将编码后的图像直接输入到解码器。中间不经过任何噪声攻击。
该阶段的损失目标函数为最小化：
$L_1=\theta_E L_E+L_D+\theta_A L_A$
其中 λE 和 λA 为权重因子。同时，对抗器也参与此步骤。GAN 训练不稳定，所以作者在这里使用了光谱归一化。
FEAT 的主要目标是获得一个功能强大的冗余编码编码器，该编码器在下一阶段将是固定不变的。

阶段 2：
针对各种噪声的噪声感知解码器训练(ADOT)
通过第一阶段的训练，得到了一个负责水印嵌入的编码器。在此之后，只关注网络的解码器，使编码器的参数固定不变。在这一阶段，引入噪声处理以有针对性地训练解码器。对于 ADOT，只有 θD 被更新以最小化 LD。目标是充分利用解码器的潜力。

传统的噪声攻击：
在盲水印领域，常用一些典型噪声来检验模型的鲁棒性[1,22,42]。称之为传统噪声。在工作中，传统噪声涉及 8 种不同强度的类型，包括一些以前从未测试过的高强度噪声:
调整噪声大小指的是将编码后的图像缩小为 ${p} * H，{p} * W)$ ， $p\in(0,1)$ ，然后缩放回原始大小(H,W)。椒盐噪声定义为将编码图像中像素的 p 比例随机替换为 0 或 255。Dropout 是指将比例为 p 的像素随机替换为封面图像对应位置的像素。裁剪和裁剪需要随机选择一个正方形区域 $(\sqrt{p} * H，\sqrt{p} * W)$ ， $p\in(0,1)$ 。对于 Cropout，区域中的像素是不变的，其余的由封面图像替换。高斯模糊噪声用宽度为 r 的高斯核模糊编码图像。高斯噪声是指添加偏差为 σ 的高斯分布噪声。JPEG 是一种常用的静态图像有损压缩标准，它是不可微的。在以前的工作中，JPEG 必须近似为可微形式的端到端训练。而真正的 JPEG 可以直接引入到训练方法中。
黑盒噪声攻击：除了测试传统的噪声外，测试了日常生活中常见的图像处理软件造成的噪声攻击，称之为黑箱噪声。这种图像处理算法封装在软件中，总是集成各种改变整个图像像素的传统噪声，如风格化。

使用图像批处理软件，选择了 5 种类型的处理作为黑箱噪声攻击，包括 4 种类型的风格化:星光，蜡笔，铅笔素描和彩色铅笔，和 1 种类型的可感知水印。星光降低了图像的亮度，增加了图像的星光。蜡笔，铅笔素描和彩色铅笔使图像像绘画。特别是，Pencil Sketch 将图像的整个颜色转换为黑白，这涉及到 3 通道的 RGB 到 1 通道的灰色。彩色铅笔涉及到图像的不规则裁剪。可感知水印将可见噪声水印添加到编码的图像中。噪声水印可以合并到透明度 V∈(0,100)的编码图像中。在实验部分给出了一些例子。

与[42]的工作类似，使用指定训练和组合训练作为 ADOT。对于指定的训练，在相同的噪声攻击下训练指定的解码器。组合训练是指在每个小批中获得具有不同噪声攻击的组合解码器。

Experiment

作者使用了 COCO 数据集[26]中的 10000 张随机图像和 CIFAR-10[2,3]中的 996 张随机图像进行训练和测试，旨在检验训练模型的泛化性。
所有图像都被转换为大小为 C _ H _ W = 3 _ 128 _ 128 的 YUV 空间。随机消息 M 的长度 L 为 30，权重因子 λE 为 0.7，λA 为 0.001。对于梯度下降，使用 Adam[24]，学习速率为 10 - 4，超参数为默认值。每个模型训练 200 epoch，批次尺寸为 12。强度因子 S 在训练过程中被设置为 1，在测试过程中被分配不同的值。
使用 8 种传统噪声在不同强度下训练 20 个指定解码器，共计 15 种和 5 种黑箱噪声。对于组合训练，我们只训练一个组合解码器，对每个小批使用不同的传统噪声攻击。

Quantitative Results

由于模型中加入了强度因子 S，通过改变 S 的值就可以简单地调整图像质量和鲁棒性。为了展示文章的模型的性能，定义了一个鲁棒性值 Rs，它是在一定强度因子 S 下，组合译码器经过 23 种噪声测试后的平均位精度:
$R_s=\frac{\sum^{I=1000}_{i=1} \sum^{N=23}_{n=1}\sum^{L=30}_{l=1}M_{i,n,l,s}\bigodot M^{'}_{i,n,l,s}}{I\times N\times L}$
其中，I, N, L分别为测试图像的数量，噪声类型的数量和消息M的长度。

Quantitative Results

传统攻击下该模型嵌入的水印的表现

Comparison between OET and ADOT

对比实验，这个可以看论文的图和表。

Discussion: How Does Our Model Embed Watermarks Into Image?

这一段解释了为什么深度学习对于嵌入水印有用。
这一段解释了为什么深度学习对于嵌入水印有用。
作者于其中根据自己的模型做了一个实验，有助于进一步理解水印机制：

提出的水印嵌入处理步骤可以简单的表示为： $I_{en}=I_{co}+I_m$ ,其中 $I_m$ 包含所有的30位的水印信息，但是很难在单一的 $I_m$ 中找到水印的嵌入机制。
在载体图像中嵌入一个全零的信息 $M_0$ ，由此生成一个水印掩码 $I_{m0}$ ，在前文中提到，信息M的形式为： $\in \{-1,1\}^L$ ，等于该掩码在嵌入的过程中对图像不产生任何影响，以排除神经网络本身对载体图像的影响。
在bit位p处的比特信息b改变信息 $M_0$ 去产生一个掩码 $I_(p,b)$ ，其中 $\in \{-1,1\}$ 。并且差分映射 $I_{D(p,b)}=20|I_{(p,b)}-I_{m0}|$ 被用于反应嵌入水印信息的比特信息和比特位置对载体图像的影响。可能还需要注意的是，只关心哪些像素已经被修改， $I_{D(p,b)}$ 被转换为单通道映射。下图为相同的比特位置但是是不同的比特信息。可以看出修改像素(白色像素)的数量和分布是不同的，这表明相同比特位置的不同比特信息具有不同的嵌入模式。
接下来是在不同的比特位置给相同的比特信息，下图可以看出不同位置的相同信息但是也有不同的嵌入效果。(a)(b)是 $I_{D(0,-1)}$ 和 $I_{D(1,-1)}$
然后将(a)(b)相加得到(d)，可以看出来与©的 $I_{D(0,−1)(1,−1)}$ 不完全相同。结果可以看出，每一位可以相互作用，但是嵌入的模式是有条件限制的，在相同的位置上嵌入不同的信息就会导致了整体的大不相同，而在不同位置嵌入相同信息也是两个图片完全不同。
作者这里是这样分析的：具体来说，计算数字是为了解释。理想情况下，如果封面图像上不同位位置的修改之间没有交互作用， $I_{D(0,1)}$ 和 $I_{D(1,1)}$ 在 $I_{D(0,1)(1,1)}$ 中的白色像素上平分， $I_{D(0,1)(1,1)}$ 和 $I_{D(0,1)}$ + $I_{D(1,1)}$ 也是相同的。实际上，出现在 $I_{D(0,1)}$ 和 $I_{D(0,1)(1,1)}$ (图(e)中的紫色像素)相同位位置的白色像素数量占 $I_{D(0,1)(1,1)}$ 中白色像素的50.5%。
$I_{D(1,1)}$ 和 $I_{D(0,1)(1,1)}$ (图(e)中的黄色像素)、 $I_{D(0,1)}$ + $I_{D(1，1)}$ 和 $I_{D(0,1)(1,1)}$ 之间的相同计算结果分别为51.6%和84.3%。
最后一个数字略小于100%，或者说紫色和黄色像素小概率占据同一位置，这意味着虽然每一位信息的嵌入图案不是完全独立的，但在一定程度上基本保留了独立相加的性质。

结论：基于以上讨论，得出以下结论:(1)同一比特位置的不同比特信息具有不同的嵌入模式；(2)相同的比特信息在不同的比特位置具有不同的嵌入模式；(3)每个比特位置之间相互影响很小，独立性有限。

最后，多像素修改掩膜表示水印信息的每一位都以冗余的方式嵌入到图像中，这与我们模型设计的初衷是一致的。它还说明了为什么在受到高强度噪声(如Dropout、Cropout和Crop)攻击的编码图像中仍然可以准确地提取水印信息。

Conclusion

提出了一个新颖实用的两阶段可分离深度学习（TSDL）框架，该框架由无噪声的端到端对抗训练（FEAT）和无噪声的解码器专用训练（ADOT）组成，用于盲水印。广泛的实验表明，所提出的 TSDL 框架不仅对常见的传统高强度噪声具有鲁棒性，而且对一些黑箱噪声也具有鲁棒性，而这些噪声在以前的工作中没有得到测试。与最先进的方法相比，TSDL 框架对大多数类型的噪声都取得了最好的性能。
试图揭示基于深度学习的盲目水印的机制

我的看法是：作者是通过改变强度因子来同时调整鲁棒性和视觉效果，但是强度因子同样需要人工设定，这样又导致了需要根据不同图像的特征去人为手工设置算法的结果。有没有一种可以自适应的强度因子同时能平衡这两个指标呢

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

A Novel Two-stage Separable Deep Learning Framework for Practical Blind Watermarking论文阅读

A Novel Two-stage Separable Deep Learning Framework for Practical Blind Watermarking

Abstract

Introduce

Related Work

Proposed Framework

Model Architecture

Two-stage Separable Training

Experiment

Quantitative Results

Quantitative Results

Comparison between OET and ADOT

Discussion: How Does Our Model Embed Watermarks Into Image?

Conclusion

你可能感兴趣的:(论文阅读,深度学习,论文阅读,计算机视觉)