Change_ZH

DBAF-Net：多分辨率遥感图像的双分支注意力融合分割网络

论文下载地址
‍论文作者
模型讲解
- [背景介绍]
- [模型解读]
- - - [ACO-SS：自适应中心偏移采样策略]
    - - [检测纹理，确定其有效区域]
        
        [根据不同比例的纹理，确定每个像素的邻域范围]
        
        [割成三种固定大小切片]
    - [DBAF-Net：双分支注意力融合网络]
    - - [SA空间注意力模块、CA通道注意力模块]
        
        [双分支注意力融合深层网络]
- [结果分析]
- - - [数据集]
    - [参数设置]
    - [消融实验]

论文下载地址

[论文地址]

‍论文作者

Hao Zhu，Wenping Ma，Lingling Li，Licheng Jiao，Shuyuan Yang，Biao Hou

模型讲解

[背景介绍]

如今，随着地球空间信息技术的发展和先进装备技术的支持，可以同时获取同一场景中不同分辨率的图像。自这一目标无法实现由单一传感器同时获取，而是当前的星载被动地球观测系统可以共同获得同一场景的两幅图像，一个高空间分辨率的全色（PAN）图像但包含较少的光谱信息，一个低空间分辨率的多光谱（MS）图像，但包含更多的光谱信息。与原始的单一分辨率图像相比，这些不同分辨率的多分辨率图像的融合，能够同时获得更高的空间和光谱信息。MS图像有助于土地植被的识别，而PAN图像对于准确描述图像中物体的形状有很大贡献。因此，PAN和MS图像之间的内在互补性为多分辨率图像分割任务提供了重要的潜力。

[模型解读]

作者设计了一种用于多分辨率分类的双分支注意融合深度网络(DBAF-Net)。其目的是将特征级融合和分割集成到端到端网络中。在建立训练样本库的过程中，传统的切片大小是固定、以像素为中心的采样策略不同，作者提出了一种自适应中心偏移采样策略（ACO-SS），该策略允许每个切片通过寻找待分类像素的纹理结构自适应地确定其邻域范围。而邻域范围与该像素不对称，希望捕捉到更有利于其分割的邻域信息。在网络结构上，以ACO-SS捕获的切片为基础，对PAN图像设计了空间注意模块（SA-module），对MS图像设计了通道注意模块（CA-module），分别突出了PAN图像的空间分辨率优势和MS数据的多通道优势。

[ACO-SS：自适应中心偏移采样策略]

训练样本集的质量是非常重要的，它直接影响网络模型的性能，因此，如何获得有效的样本是首先要解决的问题。在遥感像像素级分类分类任务中，训练样本一般是以像素为中心的图像切片。切片为中心像素提供邻域信息来确定该中心像素的类别。与自然图像不同，大场景的遥感图像通常有许多不同尺度，因此将切片设置为固定大小来提取特征是不合理的。
作者提出了一种自适应中心-偏移采样策略（ACO-SS），可以根据要分类像素的纹理结构自适应地确定每个切片的范围。该策略将原始切片像素中心（即要分类的像素）移动到纹理结构上，以形成具有均匀性的相邻像素，从而为该像素提供更多正反馈，从而为分类器提供了更多的正反馈相邻像素信息。

[检测纹理，确定其有效区域]

这里作者选择纹理结构主要是因为容易获得和稳定。最稳定的纹理结构可以通过高斯空间的归一化拉普拉斯算子（ $\sigma^2\triangledown^2G$ ）检测。但在本文中，由于 $D o G$ 是 $s - L o G$ （ $DoG\approx(k-1)\sigma^2\triangledown^2G$ ）的近似，易于计算，所以作者使用高斯（ $D o G$ ）尺度空间来捕获纹理结构。 $D o G$ 函数可以表示为：
$\begin{aligned}DoG &=G\left(x, y, \sigma_{1}\right)-G\left(x, y, \sigma_{2}\right) \\ &=\frac{1}{2 \pi \sigma_{1}^{2}} e^{-\frac{x^{2}+y^{2}}{2 \sigma_{1}^{2}}}-\frac{1}{2 \pi \sigma_{2}^{2}} e^{-\frac{x^{2}+y^{2}}{2 \sigma_{2}^{2}}} \end{aligned}$
其中 $\sigma_1$ 是当前尺度空间的尺度， $\sigma_2=k\sigma_1$ ，表示领域尺度空间的尺度。
$D o G$ 与 $s - L o G$ 的横截面如下图左侧所示。可以看出，通过计算两个最大点之间的欧式距离，可以捕获该漏斗形纹理结构的大小（表示为 $D_E$ ）。因此，对 $D o G$ 求导得到 $D_E$ 的表示：
$\left\{\begin{array}{l} D_{E}=2 \sqrt{x^{2}+y^{2}} \\ \frac{\partial DoG}{\partial D_{E}} \triangleq 0 \\ \rightarrow D_{E}=\sqrt{\frac{32 k^{2} \sigma_{1}^{2} \ln k}{k^{2}-1}} \end{array}\right.$
在本文中，作者设置 $k=2^{\frac{1}{3}}$ ， $D_E=9.5\sigma_1$ 。可以通过检测其中心极点来捕获 $D o G$ 尺度空间中的纹理结构，因为它可以提供有关位置和当前尺度 $\sigma_1$ 的信息来确定相应的 $D_E$ 。

[根据不同比例的纹理，确定每个像素的邻域范围]

对于某个像素，其周围可能有多个候选纹理，所选纹理结构在空间距离上应该最接近该像素，并确保与该像素处于同一区域。因此，作者用泰森多边形法分区所有极值点，每个泰森多边形中只有一个极值点。任何一个泰森多边形的最近纹理为改区域像素的纹理。
确定邻域范围和中心位置的整体过程如上图右侧所示。假设 $K$ 和 $K_2$ 为欧氏距离非常近但属于不同类别的两个像素点， $E$ 和 $E_2$ 分别为对应纹理的中心极值点。通过空间关系的转换，可以计算出新的中心位置 $F$ 和 $F_2$ ，以及对应的邻域范围（两个具有自适应邻域范围的蓝色斑块）。与以像素为中心的采样策略相比，采用该策略的两个蓝色切片没有过多地重复邻域信息。
以点K为例，空间关系的具体计算如下：
$\text { s.t. }\left\{\begin{array}{l} \left|K_{y}-E_{y}\right| \geq\left|K_{x}-E_{x}\right| ; K \in \odot E ; F \in E K \\ \left|E_{y}-L_{y}\right| \triangleq\left|K_{y}-E_{y}\right| \triangleq d \\ \left|R_{y}-E_{y}\right|=0.5 D_{E} \\ \left|F_{y}-L_{y}\right|=\left|R_{y}-F_{y}\right|=\frac{\left|R_{y}-L_{y}\right|}{2} \end{array}\right.$ $\begin{array}{c} \rightarrow\left|R_{y}-L_{y}\right|=\left|R_{y}-E_{y}\right|+\left|E_{y}-L_{y}\right|=0.5 D_{E}+d \\ \left|F_{y}-E_{y}\right|=\left|F_{y}-L_{y}\right|-\left|E_{y}-L_{y}\right|=\frac{0.5 D_{E}-d}{2} \\ \rightarrow F_{y}=\frac{3 E_{y}-K_{y}+\frac{K_{y}-E_{y}}{\left|K_{y}-E_{y}\right|} 0.5 D_{E}}{2} \\ \rightarrow F_{x}=\frac{K_{x}-E_{x}}{K_{y}-E_{y}}\left(F_{y}-E_{y}\right)+E_{x} \end{array}$
其中 $L_y$ 和 $R_y$ 是所选切片的边界，所以切片的大小 $S_q=| R_y-L_y|$ 。这里，如果 $K_y-E_y|<|K_x- E_x|$ ，则交换 $x$ 和 $y$ ，如果 $K\notin \odot E$ ，则认为 $K$ 周围没有明显的纹理结构，因此遵循传统的以像素为中心的采样策略，为 $K$ 设置一个固定的邻域大小 $S_{fix}$ 。从上式可以看出，确定的像素 $K$ ，切片的大小 $S_q$ 取决于其纹理结构的规模（ $D_E$ ）和极值像素点到纹理结构的欧氏距离（ $d$ ），这邻域信息可以根据不同大小的对象自适应捕获的范围。此外，在保留其部分独特的邻域信息的同时，作者将原始切片中心偏移到纹理结构的中心，以捕获更多与原始中心像素同质的邻域信息，有利于特征提取。

[割成三种固定大小切片]

在进入网络之前，为了有效地训练网络，我们最终将所有的切片切割成三个固定大小，为：
$S=\left\{\begin{array}{ll} S_{1}, & S_{p} \leq S_{1} \\ S_{f i x}, & S_{1}S_{3} \end{array}\right.$
其中 $S_x$ ， $S_{fix}$ 与 $S_3$ 三个阈值为常数， $\widetilde S_{3}$ 意味着对 $S_p$ 的切片resize为 $S_3$ ，而不是直接设置为 $S_3$ ，以确保原始邻域信息的完整性，然后这些切片用作后续网络的输入。

[DBAF-Net：双分支注意力融合网络]

[SA空间注意力模块、CA通道注意力模块]

PAN图像的空间分辨率高于MS图像，因此作者希望设计一个基于空间的注意模块，为PAN图像的特征图添加权重。MS图像有更多的通道信息，作者设计一个通道注意模块。

上图中，两种不同类型的注意机制模块。其中，P为最大池化操作，P(G)为全局平均池化操作，R为卷积、批处理归一化(BN)、ReLU等多个非线性结构的组合。除最后的激活函数为Sigmoid外，其他都是ReLU。 $F_r$ 表示降维的全连接层FC与ReLU， $F_s$ 表示增维全连接层与Sigmoid。⊗是逐元素相乘。（a）自下而上自上而下的注意模块（b）SE注意模块。

[①SA空间注意力]
在一个注意力模块中，每次上采样后的特征图都与下采样过程中的特征图进行逐像素相加，保持原有的特征，减弱过度注意力的情况发生，同时可以防止梯度爆炸。更好的反向传播。
假设 $x_t$ 为第 $t$ 层的输入， $y_T$ 为第 $T$ 层的输出 $(T > t)$ 。 $F_i(\sdot)$ 是第 $i$ 层的特征函数，包含池化、卷积、BN、ReLU等操作。 $w_i$ 表示第 $i$ 层的权重。因此，此过程可以表示为：
$y_T=F_T((x_t+\prod _{i=t}^{T-1}F_i(x_i,w_i)),w_T)$
在反向传播过程中，按照以下步骤计算从第 $T$ 层到第 $t$ 层的梯度误差 $E$ ：
$\frac{\partial E}{\partial x_{t}}=\frac{\partial E}{\partial y_{T}} \cdot \frac{\partial y_{T}}{\partial x_{t}}=\frac{\partial E}{\partial y_{T}} \cdot \frac{\partial F}{\partial x_{t}}\left(1+\frac{\partial}{\partial x_{t}} \prod_{i=t}^{T-1} F\left(x_{i}, w_{i}\right)\right)$
[②CA通道注意力]
与上面的SA同理，CA主要在于通道的注意力，每次都会将获得的特征图与输入特征图及进行通道叠加，使得最初的特征保留。
$y_T=f_s(x_t)+\prod _{i=t}^{T-1}F_i(x_i,w_i)$
个人认为这里作者的表达式比较混乱，但是流程图是十分清楚的，搞懂流程图就基本可以了。

[双分支注意力融合深层网络]

[①预处理]
PAN图像与MS图像的尺寸之比为4：1，输入网络之前都会经过一个R的操作，包括卷积、BN、ReLU。

[②基于注意力的特征提取]
如下图所示，我们使用三个SA模块在PAN分支上形成堆叠的SA网络，使用三个CA模块在MS分支上形成堆叠的CA网络。在这个过程中，两个分支的权重不共享。所提取的特征进一步增强了各图像数据类型的原始信息优势。注意力的结果主要抑制图像背景等不重要的信息，随着网络的深化，逐渐增强感兴趣的重要信息。

[③特征融合与分类]
为了有效地融合两个分支的特征，作者将按照以下操作进行第三模块的输出。假设第三模块的输入PAN图像为 $A^a_{i,c}$ ，输出的注意力图像为相同大小的 $\alpha_{i,c}$ ，对准的MS图像输入为 $B_{i,c}^b$ ，对应相同大小的注意力输出为 $\beta_{i,c}$ ， $c$ 表示通道 $i$ 表示空间位置。融合后的特征为 $Y_{i,c}^f$ 可以表示为：
$Y_{i,c}^f=f_s(F(B_{i,c}^b))+F(N(\alpha_{i,c}\sdot A_{i,c}^a+F(\beta_{i,c}\sdot B_{i,c}^b))+A_{i,c}^a)$
其中 $N (\cdot)$ 表示归一化函数， $F (\cdot)$ 和 $f_s(·)$ 表示与上述公式相同的含义。

由于ACO-SS的输入切片有三种不同的大小，作者在全连接层之前插入一个空间金字塔池化层（SPP），从而得到固定维数的向量。本文利用1x1、2x2、4x4池化建立了三层的金字塔池化。因此，图4中带有 $S\times S\times 4C$ 的特征应转化为 $(1\times 1\times 4C+2\times 2\times 4C+4\times 4\times 4C)$ 维向量。将所有特征串联并通过几个完全连通的层后，最终估计出这对切片的分类概率。本文采用交叉熵误差作为最终损失函数，定义如下:
$E=-\frac{1}{n_{b}} \sum_{i=1}^{n_{b}}\left[y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right]$

[结果分析]

[数据集]

在本节中，作者使用四个数据集来验证所提方法的鲁棒性和有效性。前两个数据集由2016年IEEE GRSS数据融合竞赛官方提供。数据集分别于2015年3月31日和2015年5月30日从加拿大温哥华的DEIMOS-2卫星采集。包括1 m分辨率的平移图像和4 m分辨率的MS图像(RGB，NIR)，如下图所示，其中数据是经过校准和放射测量校正的。MS图像为3249x 2928x4像素，PAN图像为12996 x 11712像素。数据分为11类，包括植被、四类建筑、船只、道路、港口、桥梁、树木和水。

如下图所示，其中数据是经过人工校正后再重新采样的产品，并经过校准和辐射测量校正。MS图像包括1311 x873x4像素，而PAN图像包括5244 x3492像素。数据分为8类，包括植被、三种建筑、船、路、树和水域。

接下来的两组数据来自2008年5月30日在中国西安的Ouickbird卫星。每个数据集包括0.61 m分辨率的PAN图像和2.44 m分辨率的MS图像(RGB和近红外)，如下图所示为西安市近郊区域，覆盖西安市西南角。PAN图像由6600 x 6200像素组成，MS图像由1650x 1550x 4像素组成。将场景划分为8类，包括两种植被、四种建筑区域、道路和土地。

如下图所示为西安市区，包括西安东部。PAN图像为3200 x 3320像素，MS图像为800 x 830 x 4像素。该场景被划分为6类，分别是建筑、道路、树木、土壤、平地、水和阴影。平地代表除土壤以外的所有土地。对于温哥华和西安的数据集，请注意实际上有四个相对独立的图像数据集，只有两个地方可以捕捉图像。因此，实验中的训练样本和测试样本属于同一图像数据集。不同的数据集不会相互影响。

[参数设置]

[消融实验]

使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
关于神经网络中的正则化文弱_书生乱七八糟神经网络人工智能深度学习
神经网络训练中的正则化正则化（Regularization）是神经网络训练中的一个关键技术，主要用于防止模型过拟合（overfitting），提高泛化能力。1.为什么需要正则化？在神经网络训练过程中，模型的目标是找到能在训练数据上表现良好的参数，同时也能泛化到未见过的数据。如果一个模型过于复杂（如参数过多、层数过深），它可能会记住训练数据中的噪声，而不是学习数据的本质模式。这种情况称为过拟合（ov
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s