睡晚不猿序程

【论文阅读】StegaStamp: Invisible Hyperlinks in Physical Photographs

前言

博客主页：睡晚不猿序程

⌚首发时间：2022.7.27

⏰最近更新时间：2022.7.27

本文由 睡晚不猿序程 原创，首发于 CSDN

作者是蒻蒟本蒟，如果文章里有任何错误或者表述不清，请 tt 我，万分感谢！orz

目录

文章目录

前言
1. 内容简介
2. 摘要浏览
3. 图片、表格浏览
4. 引言浏览
- 4.1 总结
5. 自由阅读
- 5.1 为了实现在现实世界的鲁棒性进行的训练（原文第三章）
- - 5.1.1 透视变换
  - 5.1.2 运动和失焦模糊
  - 5.1.3 色彩操作
  - 5.1.4 噪声
  - 5.1.5 JPEG 压缩
- 5.2 实施细节
- - 5.2.1 编码器
  - 5.2.2 解码器
  - 5.2.3 探测器
- 5.4 训练过程
- 5.5 局限性
- 5.6 网络结构
6. 总结、预告
- 6.1 总结
- 6.2 预告

1. 内容简介

准备开一个新的栏目啦，记录一下自己看论文的时候写的笔记以及思考。

本博客的内容为《StegaStamp: Invisible Hyperlinks in Physical Photographs》的笔记

论文标题：《StegaStamp: Invisible Hyperlinks in Physical Photographs》

作者：Matthew Tancik, Ben Mildenhall, Ren Ng

发布于：CVPR 2020

~~自己认为的~~关键词：暗水印，隐写术

2. 摘要浏览

看一个文章的摘要我们可以大致知道这篇文章的大致内容了。

解决的问题：

本文工作：这篇文章提出了一种结构，算法和系统雏形完成了信息在图像的不可见插入

主要贡献：StegaStamp，能将超链接的比特串编码插入到图片中去

Stegastamp的架构：StegaStamp 是一个深度神经网络，通过学习编码算法，从而让信息的插入以及提取对图像的变换鲁棒

完成效果：在亮，暗，透视变形，遮挡以及不同的距离拍摄表现良好。在经过了错误矫正后可以插入 56 bit 的信息

3. 图片、表格浏览

图一

这张图片是整个 StegaStamp 的结构：

给定输入图片，然后把信息转换为二进制表示，并与输入图像进行拼接
将拼接之后的数据传入编码器进行编码，得到一个 StegaStamp
StegaStamp 通过打印或者是屏幕显示来呈现在镜头前
镜头画面经过探测器的探测提取出经过变换的图片进行恢复，然后将其送入解码器
解码器得到二进制的编码信息

图二

这张图是 StegaStamp 进行数据嵌入的效果样例，最后一列是编码器生成的残差，会被加到原图像中来生成编码图像，这几个样例编码了 100 bit，且对现实世界中打印和显示中产生的干扰鲁棒。

图三

这张图显示了被添加到编码器和解码器之间的噪声层，他会模拟图片经过了打印或者是显示之后给图片造成的变换，以此让网络具有对打印/显示具有鲁棒性

图四

这张图显示了 StegaStamp 在现实世界中进行解码的效果

图五

这张图表示，虽然我们没有明确的训练网络的抗遮挡能力，但是训练完成的网络仍然具有一些抗遮挡能力

表一

该表展示了使用了六种显示方式（打印和屏幕显示各三种）并用三种接收方式（网络摄像头，手机镜头，单反相机）对隐藏信息进行提取的正确率

图六

这个表格对比了其他几个模型的效果

表二

这个表格展示了不同的嵌入信息量的 PSNR，SSIM 和 LPIPS 指标

图七

对噪声层进行消融实验，发现如果对图像的色彩（像素级）变换和空间变换的模拟缺一不可，不然会导致鲁棒性的降低

图八

使用不同长度的隐写信息进行嵌入，并展现其效果

4. 引言浏览

引言提出，现在有很多的类似二维码的数据转换工具，但是我们的方法可以认为是一种与上面的几种方式互补的办法，可以让数字信息隐式的插入到现实直接中普遍存在的图片中。

他提出了三种主要使用场景

在市场（比如超市），产品的照片和产品的价格单可能离得很远，如果能把价格隐式地插入到产品的图片当中去，效果就会很不错
大学的教职员工墙：扫描导师照片就可以获得信息
时报广场的广告牌：扫描广告获得信息

成果：StegaStamp，整个系统是一个神经网络，编码器和解码器一起联合训练

贡献：第一个端到端的深度水印系统

和以往工作的不同：在编码器和解码器之间添加了一些像素或者是空间的变化来近似现实世界中带来的扰动（比如打印，显示，图像裁切）

结果：正确率95%，在保留了很好的视觉效果的情况下

4.1 总结

本论文应该是提出了一个深度神经网络，实现了端到端的信息隐写，并且可以抵抗由打印、显示对图片的干扰，完成隐写信息的提取。但是隐写信息只能在 100 bit 左右，再高的话图像效果就变差了很多，有着很明显的痕迹。

5. 自由阅读

在这里我将会按照我自己好奇的顺序来阅读这篇文章啦，因为是刚开始尝试阅读论文，所以我的阅读可能将会没什么章法，笔记也可能会变得很混乱，请各位前辈大佬多多指教了！

5.1 为了实现在现实世界的鲁棒性进行的训练（原文第三章）

为了实现鲁棒，在编码器的输出以及解码器的输入之间，添加了一个噪声层，这个噪声层由对图片进行多种扰动组成

比如上面的视角变换，失焦，颜色变换，添加噪声，jpeg 压缩等

通过上面这几种操作来模拟图片被打印、显示时候带来的扰动

对比之前的工作

之前的工作也有这样做，但是他们做的变换更少，更局限

HiDDeN：只进行了像素方面的变换，而没有进行空间方面的变换

Deep ChArUco：使用了空间或者是非空间扰动来训练

我们综合了他们的方法，让编码器解码器合作来鲁棒地嵌入密码信息，通过物理显示图片的管道（比如图片-编码图片-打印图片-秘密信息）

5.1.1 透视变换

阅读资料：单应性，

假设一个单孔摄像机，两张图片会和这个镜头相关（单应性？）

我们来创造一个随机的单应性，去模拟相机镜头没有垂直正对着图片的情况。

实际操作：随机扰动四个较角的坐标（在40像素之内），接着把原图像映射到经过了扰动之后的坐标处（也就是变形了）

我们对原图像进行了双线性重采样来生成经过了透视变换的图像

5.1.2 运动和失焦模糊

阅读资料：高斯模糊1，高斯模糊2

相机运动以及自动对焦的错误都会带来模糊

运动模糊：用随机角度生成了一个线性模糊核，大小为3或者7

失焦模糊：用了高斯模糊核，模糊半径1-3【是这样理解吗？】

5.1.3 色彩操作

打印/显示的色域相比起RGB色域要低，而且相机会修改其输出（白平衡，色彩校正矩阵）

我们利用了多种的色彩变换来模拟这个过程

色相转变：每个RGB通道偏移[-0.1, 0.1]（在这个范围内随机取样）
饱和度：在完整的RGB图像和他的灰度图像之间使用随机线性插值
亮度和对比度：改变放射直方图的尺度， $m x + b$ ，其中 $m\sim U[0.5,1.5]$ ， $b\sim U[-0.3,0.3]$

做了如上变换后，把色彩通道裁切到[0,1]【有点不理解】

5.1.4 噪声

使用了一个高斯噪声层来模拟相机带来的噪声

5.1.5 JPEG 压缩

阅读资料：JPEG压缩

参考：[Richard Shin and Dawn Song. Jpeg-resistant adversarial images. In NeurIPS Workshop on Machine Learning and Computer Security, 2017](Jpeg-resistant adversarial images)

使用了该公式【用这个公式干嘛有点弄不懂】
$\begin{cases}x^{3} & :|x|<0.5 \\ x & :|x| \geq 0.5\end{cases}$
JPEG质量范围为[50,100]

5.2 实施细节

5.2.1 编码器

结构：类 U-Net，接受四通道 400×400 输入，其中一个通道是密码信息，输出为三通道 RGB 残差图像

信息处理：信息是一个长度为 100 bit 的比特串，通过一个全连接层把他变成 50*50*3 的张量，然后再上采样变成 400*400*3 的张量

作者发现对信息进行预处理可以加快收敛

5.2.2 解码器

加入了一个空间变换网络来抵抗小的视角变换。

解码器通过一系列卷积，dense，最后通过一个 sigmoid 函数输出和原本信息一样长的信息，使用交叉熵损失进行监督

5.2.3 探测器

我们直接使用了 BiSeNet 来对认为含有 StegaStamp 的区域进行切割

训练数据集：随机转换成 StegaStamp 的图像插入到 DIV2K 中的图像中

测试的时候我们把一个四边形拟合到网络认为可能有 StegaStamp 的区域，然后再计算单应性变形，把他转换为400*400

5.4 训练过程

数据集：MIRFLICKR（重采样至400*400分辨率）

评价网络：作为整个损失的一部分，我们用了一个评价网络来预测是否有信息被编码到图形中（像GAN的思想），他被当作是视觉上的损失，这个网络由多个卷积层最后连着一个最大池化层。

评价网络训练：输入图片和编码图片被分类并使用 Wasserstein 损失进行监督，评价网络是和编解码器交替进行训练的

损失：使用了以下几种损失：

$L_2$ 正则化残差损失（ $L_R$ ）
LPIPS 视觉损失（ $L_P$ ）
评价损失（ $L_C$ ）
信息的交叉熵损失（ $L_M$ ）

训练损失就是上面这几种损失的加权和
$L=\lambda_RL_R+\lambda_PL_P+\lambda_CL_C+\lambda_ML_M$
训练的时候发现的三种损失函数调整有助于收敛：

随着编码器训练到高精度的时候， $\lambda$ 要全部初始化为0，接着再线性增加
图像的扰动也要从 0 开始，其中透视变换是最敏感的扰动了，所以要增加的最缓慢
模型会学习在图像边缘分散注意力（希望这个可以有助于定位）所以我们通过余弦下降增加边缘的L2损失来减轻这种影响

5.5 局限性

残差图像的添加在图像的大块低频区域较为明显

可以改进这个结构或者是损失函数（作者说的：D）
使用现成网络作为探测器成为了该系统的瓶颈

而且我们还假设 StegaStamp 是一个单个的，方形图像，所以导致了 StegaStamp 如果嵌入到大图像的某个区域就无法检测了

作者说如果可以嵌入很多个块进入一个大图像，那会更为灵活

5.6 网络结构

网络结构在论文的附录中，CVPR 好像有要求论文的页数，所以附录没附带，可以下载 arxiv 版本

编码器：

k：卷积核大小
s：步长
chns：通道数
in 和 out ：每一层输入输出的累积步长【这是啥意思？】
+：拼接
除了最后一层，每一层之后都使用 ReLU。

解码器：

fc：全连接层
网络的前半段输出一个放射翘曲【啥东西】接着用一个可微的变换层处理再进行输出。这个经过变换的结果被喂给网络的第二部分
网络的每一层之后都使用ReLU，除了空间变换层的前一层。

6. 总结、预告

6.1 总结

本文是我在阅读论文的时候顺手记录下来的想法以及笔记，文章的前半部分受到了点李沐老师的影响，就先看了摘要，然后就去看文章中的每个图片以及表格，了解了这篇文章做了啥，然后再去看引言，然后自行阅读感兴趣的部分。

感觉看的时候还是有一些问题不是很理解，我都使用了【】进行了标记，之后理解了将会进行修改。

也算是第一次认真的看论文，方式肯定还是有很大缺陷，看了也感觉和没看一样iai，有点不知道看完还需要做些什么，代码也有调通，但是代码使用的 TensorFlow 在未来似乎不会用到，有机会把他用Pytorch重写吗？

好了，文章总结：本文提出了一个名为 StegaStamp 的模型，他可以实现水印信息的隐写，并能在打印以及显示屏显示的情况下保持鲁棒性。

6.2 预告

感觉自己经常在摸鱼，接下来还是要 push 一下自己的，接下来打算学习 Transformer，以及 swim-transformer，在这里上一个大佬的链接，感谢大佬的汇总，接下来打算学习这方面的知识啦~

大家下次见~

你可能感兴趣的:(论文阅读,计算机视觉,人工智能,深度学习)

潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他