sansheng0208

StegaStamp Invisible Hyperlinks in Physical Photographs

隐写邮票：物理照片中不可见的超链接

目标，愿景

我们的愿景是，在未来，现实世界中的每一张照片都无形地编码了一个指向任意信息的独特超链接。用照相机对着照片就可以获得这些信息，并且通过本文描述的系统去解码和追踪超链接。在未来，增强现实(AR)系统可能会持续执行这项任务，在用户的视图中，可视化地将检索到的信息与每张照片叠加在一起。

我们的方法与无处不在的QR码和类似技术有关，这些技术如今已广泛用于各种数据传输任务，例如共享网址，购买商品和跟踪库存。我们的方法可以看作是一种补充解决方案，可以避免可见的，难看的条形码，并使数字信息变得不可见，在现代视觉世界的无处不在的意象中，轻松惬意地嵌入。

流程

（图1：我们的深度学习系统经过训练，可以隐藏图像中的超链接。首先，编码器网络将输入图像和超链接位串处理为StegaStamp（编码图像）。然后将StegaStamp打印并通过相机捕获。在将StegaStamp传递到解码器网络之前，它会对其进行局部化和纠正。在恢复位并纠正错误后，用户可以发现超链接。为了训练编码器和解码器网络，我们使用一系列不同的图像增强手段来模拟打印，重新成像和检测StegaStamp导致的损坏。）

图一在一个典型流程图中展示了我们的系统概括，我们称之为StegaStamp。

输入是一张图片和一个所需的超链接。

第一步，我们为超链接分配一个唯一的位字符串（bit string）(类似于tinyurl.com等url缩短服务使用的过程)。

第二步，我们使用我们的StegaStamp编码器将位字符串嵌入进目标图片中。这将产生一个编码图像，在理想情况下在视觉上与输入图像相同。如同第四部分描述的细节，我们的编码器被实现为一个深度神经网络，它与第二个网络共同训练，第二个网络实现了解码。

第三步，编码后的图像是物理打印的(或显示在电子显示屏上)，并在现实世界中显示。

第四步，用户拍摄包含实体打印的照片。

第五步，系统使用一个图像检测器来识别和裁剪所有的图像。

第六步，每一张图片都由StegaStamp解码器进行处理，以检索唯一的位串，该位串用于追踪超链接并且接收与图片相关的信息。

针对现实世界进行的鲁棒性训练

3.1透视变换

假设一个针孔相机模型，同一平面的任意两幅图像可以通过单应性相关联。我们生成随机单应性以模拟与编码的图像标记未精确对准的相机的影响。为了对单应性进行采样，我们在固定范围内（最大±40像素，即±10％）均匀地扰动标记的四个角位置，然后求解将原始角映射到其新位置的单应性。我们对原始图像进行双线性重采样以创建透视变形的图像。

单应性：

平面上某点P，在世界坐标系下和图像坐标系下的坐标分别表示为M和m，则
$s\widetilde{m}=A[R,t]\widetilde{M}$
其中，s为尺度因子，A为内参矩阵，R,t统称为外参矩阵，将其展开如下：
$s\begin{bmatrix} u\\ v\\ 1\end{bmatrix}=A\begin{bmatrix} r_1 & r_2 & r_3 &t \end{bmatrix}\begin{bmatrix} X\\ Y\\ Z\\ 1 \end{bmatrix}$
由于在同一平面下，令z=0：
$s\begin{bmatrix} u\\ v\\ 1\end{bmatrix}=A\begin{bmatrix} r_1 & r_2 & r_3 &t \end{bmatrix}\begin{bmatrix} X\\ Y\\ 0\\ 1 \end{bmatrix}=A\begin{bmatrix} r_1 & r_2 &t \end{bmatrix}\begin{bmatrix} X\\ Y\\ 1 \end{bmatrix}$
使 $H=A\begin{bmatrix}r_1& r_2 &t\end{bmatrix}$ ，则H为单应性矩阵， $s\widetilde{m}=H\widetilde{M}$

最少根据四个点，建立8个方程。

单应性变换：

如下图所示的平面的两幅图像。红点表示两幅图像中的相同物理点，我们称之为对应点。这里显示了四种不同颜色的四个对应点 - 红色，绿色，黄色和橙色。一个Homography是一个变换（3×3矩阵），将一个图像中的点映射到另一个图像中的对应点。单应性变换其实就是一个平面到另一个平面的变换关系。

放射变换

仿射变换是一种二维坐标到二维坐标之间的线性变换（相同平面），它保持了二维图形的“平直性”（直线经过变换之后依然是直线）和“平行性”（二维图形之间的相对位置关系保持不变，平行线依然是平行线，且直线上点的位置顺序不变），但是角度会改变。任意的仿射变换都能表示为乘以一个矩阵(线性变换)，再加上一个向量 (平移) 的形式。

$\begin{bmatrix}x^{'} \\ y^{'} \\z^{'}\end{bmatrix}=\begin{bmatrix}a_{11} \quad a_{12} \quad a_{13}\\a_{21} \quad a_{22} \quad a_{23} \\ 0 \quad 0 \quad 1 \end{bmatrix}\begin{bmatrix}x \\ y \\z\end{bmatrix}$

透视变换

透视变换是将图片投影到一个新的视平面，也称作投影映射．它是二维（x,y）到三维(X,Y,Z)，再到另一个二维(x′,y′)(x′,y′)空间的映射．相对于仿射变换，它提供了更大的灵活性，将一个四边形区域映射到另一个四边形区域（不一定是平行四边形）．它不止是线性变换．但也是通过矩阵乘法实现的，使用的是一个3x3的矩阵，矩阵的前两行与仿射矩阵相似(m11,m12,m13,m21,m22,m23)(m11,m12,m13,m21,m22,m23)，也实现了线性变换和平移，第三行用于实现透视变换．

以上公式设变换之前的点是z值为1的点，它三维平面上的值是x,y,1，在二维平面上的投影是x,y，通过矩阵变换成三维中的点X,Y,Z，再通过除以三维中Ｚ轴的值，转换成二维中的点x’,y’.
从以上公式可知，仿射变换是透视变换的一种特殊情况．它把二维转到三维，变换后，再转映射回之前的二维空间

3.2运动和散焦模糊

相机运动和不正确的自动对焦都可能导致模糊。为了模拟运动模糊，我们对一个随机角度进行采样并生成宽度在3到7个像素之间的线性模糊kernel。为了模拟失焦，我们使用高斯模糊kernel，其标准偏差在1到3个像素之间随机采样。

3.3色彩处理

与完整的RGB颜色空间相比，打印机和显示器的色域有限。相机使用曝光设置，白平衡和色彩校正矩阵来修改其输出。我们通过一系列随机仿射颜色变换（在整个图像中恒定）来近似这些扰动，如下所示：

1.颜色偏移：向从[-0.1,0.1]均匀采样的每个RGB通道添加随机颜色偏移

2.去饱和（去色）：在整个RGB图像及其灰度等效图像之间随机线性插值。

3.亮度与对比度：仿射直方图缩放 $\quad m \thicksim U[0.5,1.5],\quad b\thicksim U[-0.3,0.3]$

(改变亮度或者对比度一般通过： $g (x, y) = a * f (x, y) + b$ )

3.4噪声

照相机系统引入的噪声已得到充分研究，包括光子噪声，暗噪声和散粒噪声。假设标准的非光子匮乏的成像条件，采用高斯噪声模型（对标准偏差σ〜U [0,0.2]进行采样）来解决成像噪声。

3.5JPEG压缩

相机图像通常以有损格式存储（例如JPEG）。JPEG通过计算图像中每个8×8块的离散余弦变换并通过舍入到最接近的整数（在不同频率下具有不同强度）来量化所得系数来压缩图像。此舍入步骤不可微分，因此我们使用Shin和Song [40]的技巧，通过分段函数近似接近零的量化步长：

应用细节

4.1Encoder

编码器经过训练，可以将消息嵌入到图像中，同时最小化输入和编码图像之间的感知差异。我们使用U-Net 样式的体系结构，该体系结构接收四通道400×400像素的输入（输入图像RGB通道加上一条消息），并输出三通道RGB残留图像。输入消息以100位二进制字符串表示，通过全连接层进行处理以形成一个50×50×3的tensor，然后上采样生成一个400×400×3的tensor

U-net流程：

1.对于input进行conv+relu，横向进行crop+copy，纵向进行maxpooling

2.纵向向下重复1，直到U型底部，停止纵向maxpooling，横向conv之后进行upsample（方式是反卷积）

3.upsample后的结果与上一层的crop+copy的结果进行**拼接（channel维度拼在一起）**得到更“厚”的特征

4.纵向向上重复3，最后得到特征图并进行softmax语意分割进行output

4.2decoder

解码器经过训练可以从编码图像中恢复隐藏消息。一个STN网络是捕获和矫正编码的图像时以应对小的角度变化来保证图像的鲁棒性而引入的。转换后的图像通过一系列卷积和一个sigmoid激活，以产生与消息长度相同的最终输出。decoder使用交叉熵loss监督训练。

STN的目标或者用途：

结构：

三部分组成：参数预测：Localisation net、坐标映射：Grid generator、像素的采集：Sampler。

STN作用：

该过程可以由6个参数控制。

参数预测

（针对于坐标而言）所有操作用6个参数就可以完成，所以可以把特征图作为输入U，经过连续若干层的计算（譬如卷积），回归出参数 $\Theta$ ，用于下一步计算；

坐标映射

$x_i^t,y_i^t)$ 是输出的目标图片的坐标， $x_i^s,y_i^s)$ 是原图片的坐标，Aθ表示仿射关系。

像素的采集

由于在第二步计算出了V中每个点对应到U的坐标点，在这一步就可以直接根据V的坐标点取得对应到U中坐标点的像素值来进行填充，而不需要经过矩阵运算。需要注意的是，填充并不是直接填充，首先计算出来的坐标可能是小数，要处理一下，其次填充的时候往往要考虑周围的其它像素值。填充根据的公式如下。
$V_{i}=\sum _n \sum _m U_{nm}*k(x_{i}^{s}-m;\phi _x)*k(y_{i}^{s}-n;\phi _y)$
其中n和m会遍历原图U的所有坐标点，Unm指原图U中某个点的像素值，k()为取样核，两个 $\phi$ 为参数， $(x^s_i,y^s_i)$ 表示V中第i个点要到U图中找的对应点的坐标，表示的坐标是U图上的，k表示使用不同的方法来填充，通常会使用双线性插值，则会得到下面的公式（作者给出的）:
$V_{i}=\sum _n \sum _m U_{nm}*max(0, 1 - |x_{i}^{s}-m|)*max(0, 1 - |y_{i}^{s}-n|)$

整理后： $f (i + u, j + v) = (1 - u) (1 - v) f (i, j) + (1 - u) v f (i, j + 1) + u (1 - v) f (i + 1, j) + u v f (i + 1, j + 1)$

譬如：

计算公式为 $f (1 + 0.6, 2 + 0.4) = (1 - 0.6) (1 - 0.4) f (1, 2) + (1 - 0.6) 0.4 f (1, 3) + 0.6 (1 - 0.4) f (2, 2) + 0.60.4 f (2, 3)$

总而言之，STN的加入是想要提高卷积神经网络空间不变性。

4.3detector

现实使用的时候，在解码之前我们是从一个大视野去检测和修正StegaStamps，因为单独的解码器没有设计为处理更大图像的全部检测。我们微调一个现成的语意分割网络BiSeNet去分割包含StegaStamps的图片区域。这个网络用一个这样的数据集训练：从DIV2K中sample高分辨率图片，并对这些图片随机进行StegaStamps嵌入转换。在测试的时候，我们把四边形拟合到每个网络建议区域的凸包上，然后计算单应性以将每个四边形扭曲回到400×400像素的图像，以供解码器进行解析。

在语义分割任务中，空间分辨率和感受野很难两全。

Spatial Path：尤其是在实时语义分割的情况下，现有方法通常是利用小的输入图像或者轻量主干模型实现加速。但是小图像相较于原图像缺失了很多空间信息，而轻量级模型则由于裁剪通道而损害了空间信息。

其包含三层，每层包含一个步幅（stride）为 2 的卷积（conv），随后是批归一化（Batch Nornalization）和 ReLU。因此，该路网络提取相当于原图像 1/8 的输出特征图。由于它利用了较大尺度的特征图，所以可以编码比较丰富的空间信息。

Context Path：在语义分割任务中，感受野对于性能表现至关重要。为增大感受野，譬如 large kernel，这种操作会增大计算量和内存的耗费，速度慢。

ContextPath利用轻量级模型与全局平均池化以提供大感受野。比如 Xception（Inception改进），可以快速下采样特征图以获得大感受野，编码高层语义语境信息。接着，本文在轻量级模型末端添加一个全局平均池化，通过全局语境信息提供一个最大感受野。在轻量级模型中，该模型借助 U 形结构融合最后两个阶段的特征，但这不是一个完整的 U 形结构。

注意力优化模块ARM：这篇文章提出一个注意力优化模块，以优化每一阶段的特征。通过全局平均池化捕获全局语境，计算注意力向量，可以用来优化 Context Path 中每一阶段的输出特征，便于整合全局语境信息，降低计算成本。

特征融合模块FFM：Spatial Path 捕获的空间信息编码了绝大多数的丰富细节信息，Context Path 的输出特征主要编码语境信息。两路网络的特征并不相同，因此不能简单地加权两种特征，要用一个独特的特征融合模块以融合这些特征。

简单来说就是两个路径的特征图直接叠加不合适，就去设置一个网络，训练学习一下两部分如何叠加。

4.4 Encoder/Decoder Training Procedure

Critic：使用一个critic网络预测信息是否被嵌入图片中，并且作为总loss的一部分，这一部分的loss被称作编码解码过程的感知loss。该网络由一系列卷积层+最大池化组成。为了训练critic，对输入图像和编码图像进行分类，并将Wassersteinloss 用作监督信号。critic的训练与编码器/解码器的训练交织在一起。

Losses：为了在编码的StegaStamp上实现最小的感知失真，使用 $L_2$ 残差正则化 $L_R$ ，感知loss $L_P$ ，用 $L_C$ 计算编码图像和原始图像critic loss，cross entropy loss 计算message，最后总loss（想法应当是前面3个loss计算编码图像和原始图像，最后一个计算message的正误）
$L=\lambda_RL_R+\lambda_PL_P+\lambda_CL_C+\lambda_ML_M$

$L_P$ loss：

Wasserstein距离：
$W(P_r, P_g) = \inf_{\gamma \sim \Pi (P_r, P_g)} \mathbb{E}_{(x, y) \sim \gamma} [||x - y||]$

解释如下： $\prod(P_r,P_g)是P_r和P_g$ 组合起来的所有联合分布的集合，反过来说， $\prod(P_r,P_g)$ 中每一个分布的边缘分布都是 $P_r和P_g$ 。对于每一个可能的联合分布 $\gamma$ 而言，可以从中采样 $(x,y)\sim \gamma$ 得到一个真实样本x和一个生成样本y，并算出这对样本的距离 $∣ ∣ x - y ∣ ∣$ ，所以可以计算该联合分布 $\gamma$ 下样本对距离的期望值 $E_{(x,y)\sim \gamma}[||x-y||]$ ，在所有可能的联合分布中能够对这个期望值取到的下界就定义为Wasserstein距离。

由于inf没办法直接求解，所以作者做了一个变换：
$W(P_r, P_g) = \frac{1}{K} \sup_{||f||_L \leq K} \mathbb{E}_{x \sim P_r} [f(x)] - \mathbb{E}_{x \sim P_g} [f(x)]$
这个公式的意思是要求函数f的Lipschitz常数 $f||_L$ 在不超过K的条件下，对所有可能满足条件的f取到 $\mathbb{E}_{x \sim P_r} [f(x)] - \mathbb{E}_{x \sim P_g} [f(x)]$ 的上界，然后再除以K。特别的，我们可以用一组参数 $\omega$ 来定义一系列可能的函数 $f_{\omega}$ ，此时求解公式可以近似变成下式：
$\cdot W(P_r, P_g) \approx \max_{w: |f_w|_L \leq K} \mathbb{E}_{x \sim P_r} [f_w(x)] - \mathbb{E}_{x \sim P_g} [f_w(x)]$
对于深度学习来说就可以把f用一个带参数的 $\omega$ 的神经网络来表示，去计算这个距离。并且对于学习的过程来说，虽然有 $||f||_L∣∣f∣∣L<K$

这样就可以去构造一个含参数 $\omega$ ，最后一层不是非线性激活的判别器网络 $f_{\omega}$ ，在限制 $\omega$ 不超过某个范围的条件下使得：
$\mathbb{E}_{x \sim P_r} [f_w(x)] - \mathbb{E}_{x \sim P_g} [f_w(x)]$
么此时关于输入样本的导数 $\frac{\partial f_{\omega}}{\partial x}$ 也不会超过某个范围，所以这样的K就能找到，算法实现中每次更新完 $\omega$ 把它clip回这个范围就行了)

这样就可以去构造一个含参数 $\omega$ ，最后一层不是非线性激活的判别器网络 $f_{\omega}$ ，在限制 $\omega$ 不超过某个范围的条件下使得：
$\mathbb{E}_{x \sim P_r} [f_w(x)] - \mathbb{E}_{x \sim P_g} [f_w(x)]$
尽可能最大，L就会近似真实分布与生成分布之间的Wasserstein距离。

这篇文章没有提出新的模型或者概念或者技巧，这里我也只是根据文章里用到的模型以及结构去学习了一下，最后根据我看的博客等内容总结了一下该文使用的模型以及结构，最后的感知loss其实比较复杂，建议多多研究，第一次发文，如有错误，麻烦指正。

12-21冬至小记彩语星空
（一）今天冬至。冬至大过年。早上去市场买菜，买水果。之前已经连续几天吃快餐了。打算好好的做一顿饭吃。今天努力的想要保持好心情。买东西的时候有些店员耐心不够，自己也就随性一点，由他吧。反正我今天的心情要美美的。回去煮了水饺，蒸鱼和炒西蓝花猪肉。真是太久没做饭了。把握不住那个力度。西蓝花还是炒的有点熟透了。我想做一个爱做饭的人。做好后带饭给老爸。在做透析的老爸，说很饿。幸好我有做饺子，就先拿上去给他吃
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
返程小记无比芜杂的心
“初七我需要去其他城市处理问题，武汉这边的实验室老师操作、判读后期需要你去跟进指导下，有没有问题？”同事在初五发来这样的信息。“没问题，初七我就回武汉。”我果断的回答。工作即是我生命，哪里有需要我就去，虽然我是革命的一块瓦，搬到哪里哪里垮。初七要上班，初六我就要到才行。初六那天天空下着小雨，很冷，路旁的小树枝挂着冰凌，特别好看。但是转念一想，结冰是出行的大障碍，会不会错过约定？我按着以往的步调走，
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
换车小记做一只勇敢的鸟
这周末又是一年一度的东风日产节，前晚老公兴拿两张表兴冲冲地说：“他这次有机会买PT车了，5折价钱购买，总共120台，他排队到129号，除了部分人不要的，所以他买上的机会很大......”但是我对于此消息却不是很感兴趣，因为前阵子才把家里车卖了，对于三口之家的小家庭来说，再加上家又不是地铁口，养两部车真的是没必要；再加上车是消耗品，一落地就贬值了，买回来还要花一笔费用去养听......所以我对换车提
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>