DU_YULIN

OCR文本检测-DBnet论文阅读笔记

文章目录

前言
摘要（Abstract）
1. 介绍（Introduction）
2. 相关工作（Related Work)
3. 方法（Methodology)
- 3.1 二值化（Binarization）
- - 3.1 标准二值化
  - 3.2 可微分二值化
- 3.2 自适应阈值（Adaptive threshold)
- 3.3 可变形卷积（Deformable convolution)
- 3.4 标签生成（Label generation）
- 3.5 优化（Optimization)
4. 实验（Experiments)
- 4.1 数据集（Datasets）
- 4.2 实现细节（Implementation details）
- 4.3 消融研究（Ablation study)
- 4.4 和之前方法比较（Comparisons with previous methods）
- 4.4 局限性（Limitation）
完结

前言

在项目中测试过EAST文本检测模型后，发现效果不太好，在搜索了现有文本检测模型后，都说DBnet模型比较优，而且像PaddleOCR, EasyOCR等比较成熟的OCR文本检测与识别工具都有使用，所以今天开始学习这个模型并做下笔记，方便以后复习。

论文：Real-time Scene Text Detection with Differentiable Binarization

提示：以下是本篇文章正文内容，下面案例可供参考

摘要（Abstract）

最近，基于分割的场景文本检测方法非常流行，主要是因为分割的结果可以更准确地描述如弯曲文字这种任意形状的文本。然而，二值化的后处理过程对于基于分割的文本检测是很重要的，它将基于分割方法产生的概率图转变为文本框（或称为文本区域）。

论文提出可微分二值化的方法（Differentiable Binarization, DB)，在基于分割的文本检测网络中 DB 实现了二值化处理。基于 DB 模块的分割网络可以自适应设置二值化阈值，不仅简化了后处理过程，也提升了文本检测的性能。

论文在5个benchmark 数据集上进行性能验证，在检测准确性和检测速度上获得SOTA(state-of-the-art)。

实验结果：
在MSRA-TD500数据集上，网络backbone = ResNet-18, F-score=82.8, 62 FPS(frames per second)

1. 介绍（Introduction）

近年来，由于图像或视频理解，可视化搜索，自动驾驶，盲人辅助等广泛应用，场景图像中文本阅读成为比较活跃的研究领域。

作为场景文本阅读的一个关键部分-场景文本检测，它的主要任务是定位文本框或者每一个文本实例区域，由于场景文本一般具有不同尺度和形状，比如水平的，多方向和弯曲文本，这些因素的存在让文本检测任务面临挑战。基于分割的场景文本检测备受关注，这种方法可以检测出任意形状的文本，这主要受益于这一方法是在像素级（pixel-level)进行预测并输出结果。然而，大多数基于分割的方法都要进行后处理（post processing)，这主要是将像素级预测结果分组到要检测的文本实例中，这将在推理过程中带来额外的时间消耗，比如PSENet和Pixel embedding。

大多数文本检测模型都使用相似的后处理流水线，如图Fig.2所示（蓝色箭头）。

使用固定阈值将基于分割模型的输出结果-概率特征图进行阈值分割，生成二值图；
应用一些如聚类的启发式方法将像素分组到文本实例中。

如Fig.2 蓝色虚线所示，二值化过程仅存在于推理阶段，不包含在训练过程中。论文则将二值化方法加入到训练阶段进行联合优化（个人认为，将二值化过程加入训练过程中，是将二值化结果作为梯度更新的依据，这样使训练出来的网络预测结果更准确）。按照这种方法，图像中每个位置的阈值都可以被预测，用这个预测的阈值能够更准确地区分图像中地文本像素于非文本像素。然而，标准地二值化方法是不可微地（不可进行梯度更新），论文在基于分割地训练网络中应用可微的二值化近似函数（DB）。

论文的主要贡献是提出了可微分的DB模块，将二值化成为CNN网络中end-to-end 可训练的这样一个过程。论文通过将一个简单的语义分割网络与DB模块组合在一起，提出了一个性能鲁棒，运行速度快的场景文本检测器。

和之前基于分割的SOTA方法相比，论文提出的检测器有如下几点明显优势：

在5个场景文本benchmark数据集上有更好的性能，包括水平，多方向和弯曲文本；
比之前的方法更快，因为DB模块极大简化了后处理过程；
当使用轻量级backbone时，DB也能很好地工作，比如ResNet-18;
因为DB模块可以在推理阶段被移除并且不影响性能，因此在测试时没有多余的内存或时间消耗。

2. 相关工作（Related Work)

场景文本检测模型大致分为两类：基于回归的方法和基于分割的方法。

基于回归的方法：
基于回归方法的模型都是直接回归计算出包含文本实例的包围框（文本框），比如TextBoxes, TextBoxes++, DMPNet等都属于这一类模型。基于回归的方法通常偏爱简单的后处理方法比如非极大值抑制（NMS)。但是，这类方法通常在表示非常规形状文本的包围框上精度受限，比如弯曲文本。

基于分割的方法：
基于分割的方法通常是结合像素级预测（pixel-level)和后处理算法来获得包围框。
2016年 Zhang等人使用语义分割和基于最大稳定极值区域（MSER）算法进行多方向文本检测；…(这里省略其它模型和方法); PSENet和SAE为分割结果提出新的后处理算法，这导致推理速度更慢。然而，论文通过将二值化过程融入训练阶段，不仅提升了分割的性能（更好的分割结果），而且没有导致推理速度变慢。（个人认为，论文输出的概率图或二值图可直接判断像素是否为文本像素，不需要应用一些启发式方法来分组文本像素，不过还要通过后续阅读来确认）。

快速场景文本检测方法聚焦于精度和推理速度这两方面。TextBoxes, TextBoxes++,SegLink, RRD这些模型沿用了SSD检测框架实现了快速文本检测；EAST应用PVANet提高了检测速度。但是上述大部分模型无法处理非常规形状文本，比如弯曲文本。和之前快速场景文本检测器相比，论文提出的方法不仅运行速度快（推理速度）而且可以检测任意形状的文本实例。

3. 方法（Methodology)

论文提出的模型架构如图Fig.3所示：

模型运行过程如下所示：

将输入图像输入到模型backbone:特征金字塔模型；
金字塔模型每层输出的特征图都经过上采样得到相同宽高的特征图，然后将金字塔模型所有经过上采样后的特征图按照通道方向拼接产生特征图 $F$ ;
特征图 $F$ 被用来预测输出概率图 $P$ 和阈值图 $T$ 。
通过 $P$ 和 $F$ 可以计算出近似二值图 $\hat{B}$ ;

在模型训练阶段，对概率图，阈值图和近似二值图进行监督(supervision)，并且概率图和近似二值图使用相同的监督（个人理解，这里的监督想要表达的应该是计算梯度值或者说是损失值）。

在模型推理阶段，可以让近似二值特征图或者概率特征图经过一个生成文本框的模块（box formulation boxes）来获得包围框。（这个生成文本框的模块要做哪些工作，这是影响推理速度的关键）

3.1 二值化（Binarization）

3.1 标准二值化

对分割网络输出的概率特征图 $P\in R^{H\times W}$ ，其中 $H$ 表示特征图的高度， $W$ 表示特征图的宽度。通常二值化过程如下公式所示：

其中， $t$ 表示预先定义的阈值， $(i, j)$ 表示特征图中像素的坐标。

3.2 可微分二值化

从公式（1)可以知道，标准二值化是不可微分的（阶跃函数，非线性函数），因此无法直接将二值化过程加入到分割网络中进行训练。为了解决这一问题，论文提出一种近似阶跃函数的二值化方法：

公式（2）中， $\hat{B}$ 表示近似二值图， $T$ 表示分割网络预测的阈值图, $k$ 表示放大因子，根据经验一般设为50。该近似阶跃函数性能近似阶跃函数，但是可微分，如图Fig.4所示。因此，可以在训练网络中进行优化。

该可微的二值化过程不仅能够帮助找出背景中的文本区域，也能分割出紧密结合的文本实例，Fig.7列出了一些例子。

借助梯度反向传播来解释为什么DB模块可以提高检测性能。这里以二值交叉熵损失为例。这里DB函数定义为 $f(x)=\frac{1}{1+e^{-kx}}$ , 其中 $x=P_{i,j}-T_{i,j}$ ， $l_{+}$ 表示正样本（文本）损失值， $l_{-}$ 表示负样本（非文本）损失值，计算公式如下所示：

应用链式法则求得损失值的微分：

损失函数梯度值如图Fig.4所示。从微分结果可以看出：
（1）梯度值随着 $k$ 的增大而增大；
（2）梯度值的增大对于大多数的错误预测区域意义重大（ $L_{+}: x<0$ , $L_{-}: x>0$ ），因此利用该损失函数的优化策略对生成更有区分性的预测结果有帮助。
而且，从 $x=P_{i,j}-T_{i,j}$ 看出，用于区分文本区域与非文本区域的概率特征图 $P$ 的梯度受阈值图 $T$ 的影响并需要重新调整。（不理解：这句话要表达什么？）

3.2 自适应阈值（Adaptive threshold)

从外观上来看，Fig.3上阈值图与2018年 Xue, Lu和Zhan提出的文本边界特征图（text border map）相似，然而阈值图的动机和用途与其相比却不同。Fig.6展示了有或没有监督的阈值图可视化结果。阈值图能够用来突出显示文本边界区域即便是没有监督的阈值图也有相同的作用。因此，在阈值图上应用类边界监督能够获得更好的结果。后面实验章节进行了监督的消融研究。论文的阈值图用来作为二值化的阈值，而上文提到的文本边界特征图则是用来分割文本实例。

3.3 可变形卷积（Deformable convolution)

可变形卷积可为模型提供一种灵活的（flexible）感受野，它对于具有比较极端纵横比的文本实例是及其有好处的。论文将这种卷积应用于所有的 $3\times3$ 的卷积层，ResNet-18或ResNet-50中的conv3, conv4和conv5中。（这里，可能看源码会比较好）。

3.4 标签生成（Label generation）

论文中概率图标签生成策略是受到PSENet中的启发。给一个文本图像，每一个文本区域的多边形由分割几何表示：

公式中 $n$ 表示多边形顶点数，不同的数据集有不同的顶点数，比如在ICDAR2015数据集有4个顶点，在CTW1500数据集则有16个。使用一种叫做Vatti clipping的算法来收缩多边形区域（ $G$ ，Fig.5中红线区域）到Fig.5中蓝线区域（ $G_{s}$ ），即文本区域。收缩的偏移量 $D$ 是通过多边形区域 $G$ 的周长 $L$ 和面积 $A$ 计算而来：

公式中， $r$ 表示收缩比例，经验值为0.4。

相似的处理过程，可以为阈值图生成标签。首先将多边形区域 $G$ 膨胀到 $G_{d}$ ,即Fig.5中绿线区域，使用的膨胀偏移量也是 $D$ 。论文将 $G_{s}$ 和 $G_{d}$ 的间隙作为文本区域的边界，然后阈值图的标签可通过计算这个间隙边界到 $G$ 最小距离来确定。

3.5 优化（Optimization)

损失函数 $L$ 可表示为概率图损失 $L_{s}$ ，二值图损失 $L_{b}$ 和阈值图损失 $L_{t}$ 这三者的加权和：

公式中，根据经验值， $\alpha=1.0$ ， $\beta=10$ 。

对二值图和概率图损失函数论文使用二值交叉熵（binary cross-entropy, BCE)。为了解决正负样本不平衡的问题，在BCE中使用困难样本挖掘的方法（hard negative mining)- 对困难负样本采样（负样本多于正样本）。

公式中 $S_{l}$ 表示样本集合，该集合中正负样本比率为 $1 : 3$ 。

论文中阈值图的损失函数是所有膨胀文本多边形 $G_{d}$ 内预测值于标签值间 $L 1$ 距离和表示。

这里 $R_{d}$ 表示膨胀文本区域 $G_{d}$ 内所有像素点索引集合， $y^{*}$ 表示阈值图的标签值。

在推理阶段，既可以用概率图也可以用近似二值图来生成文本框，它们输出的结果几乎完全相同。但是出于效率的考量，论文使用了概率图并且删除了二值化的过程。由概率图产生文本框的过程主要分为三步：
（1）由常量阈值（ $0.2$ ）对概率图进行二值化，得到二值化特征图；
（2）从二值化特征图中获得连接的文本区域，即收缩的文本区域 $G_{s}$ ;
（3）用Vatti clipping算法中的一个偏移量 $D^{'}$ 对收缩的文本区域进行膨胀，即生成标签文本时 $G\rightarrow G_{s}$ 的逆过程。 $D^{'}$ 可由下式计算：

公式中， $A^{'}$ 表示收缩文本区域的面积， $L^{'}$ 表示收缩文本区域的周长， $r^{'}=1.5$ 。
(从这里看出，论文的推理阶段框确实移除了基于启发式聚类方法生成文本框，个人认为这是推理速度提高的关键点)。

4. 实验（Experiments)

4.1 数据集（Datasets）

SynthText: 合成数据集，包括 $800 k$ 图像，由 $8 k$ 背景图像合成，这个数据集被用于预训练；

MLT-2017:多种语言数据集。包含 $7200$ 张训练图像， $1800$ 张验证图像， $9000$ 张测试图像。论文使用该训练集和验证集进行微调。

ICDAR 2015: 包含 $1000$ 张训练图像， $500$ 张测试图像，由谷歌眼镜拍摄获得，分辨率为 $720\times1280$ 。文本实例的标签为单词级别。

MSRA-TD500: 包含中英文的多语言数据集，有 $300$ 张训练图像和 $200$ 张测试图像。文本标签为文本行级别。借鉴之前的经验，论文加入了从HUST-TR400数据集中的 $400$ 张训练图像。

CTW1500：主要包含弯曲文本的数据集，由 $1000$ 张训练图像和 $500$ 张测试图像组成，文本标签是文本行级别的。

Total-Text:包含各种形状的文本，比如水平的，多方向的以及弯曲的文本，由 $1255$ 张训练图像和 $300$ 张测试图像，文本标签是单词级别的。

4.2 实现细节（Implementation details）

首先在SynthText数据集进行预训练并迭代 $100 k$ 。然后在想要训练的数据集上进行微调， $e p o c h = 1200$ ;训练的 $b a t c h s i z e = 16$ ;使用多项式学习率调整策略，即当前迭代学习率：初始学习率 $*(1-\frac{iter}{max\_iter})^{power}$ 。论文中初始学习率为 $0.007$ ， $p o w e r = 0.9$ 。权重衰减值为 $0.0001$ ，动量值为 $m o m e n t u m = 0.9$ 。 $max\_iter$ 表示最大迭代次数，根据最大 $e p o c h s$ 计算。

训练数据增强操作包括：
（1）随机旋转，旋转角度范围： $(-10^{\circ},10^{\circ})$ ;
（2）随机裁剪；
（3）随机翻转；
为了更好的训练效率，所有的图像的分辨率要调整到 $640\times640$ 。

在推理阶段，要保证测试图像的纵横比，根据数据集设置合理的图像高度来调整输入图像。论文推理速度是在 $b a t c h s i z e = 1$ ，单个1080ti GPU，单线程测试。推理时间消耗包括网络前向运行和后处理两类，并且后处理时间大约占总时间的 $30\%$ 。

4.3 消融研究（Ablation study)

在MSRA-TD500数据集和CTW1500数据集进行论文提出的DB模块，可变形卷积（deformable convolution）和不同的backbones有效性研究，如Tab.1所示。

论文还进行了对阈值图监督的研究，结果如Tab.2所示：

4.4 和之前方法比较（Comparisons with previous methods）

弯曲文本检测：在Total-Text和CTW1500数据集上验证论文方法的形状鲁棒性，结果如表Tab.3 和Tab.4所示：

多方向文本检测： 数据集 ICDAR2015包含多方向文本，有很多小的，低分辨率的文本实例，检测结果如Tab.5所示。

多语言文本检测：论文提出的方法对多语言文本检测也是很鲁棒的，如Tab.6和Tab.7所示。

4.4 局限性（Limitation）

论文方法无法处理文本嵌套问题（text inside text)，即一个文本位于另一个文本的里面。这是基于分割方法的场景文本检测器的“通病”。

完结

到这里，论文阅读就结束了，但还是有些不确定的地方，比如推理速度比之前方法更快，论文中解释的不是很清楚，这需要阅读其它方法的论文和本论文源码来进一步确认。当然，如果有同学能够解答，万分感谢了！

【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
Excel处理控件Aspose.Cells教程：Java 在 Excel 中插入和删除行和列
Aspose.Cells是Excel电子表格编程API，可加快电子表格的管理和处理任务，支持构建能够生成，修改，转换，呈现和打印电子表格的跨平台应用程序。同时不依赖于MicrosoftExcel或任何MicrosoftOfficeInterop组件，AsposeAPI支持旗下产品覆盖文档、图表、PDF、条码、OCR、CAD、HTML、电子邮件等各个文档管理领域，为全球.NET、Java、C++等1
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
[SQLSERVER][SQL]监控SQlserver存储过程 awonw sqlserver sqlserver sql 数据库
USE[master]GO/******Object:StoredProcedure[dbo].[sp_who_run_plus]ScriptDate:2021-09-1016:51:26******/SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATEPROC[dbo].[sp_who_run_plus]ASBEGINSELECTDB_NAME(er.[
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
Python+dddocr自动化突破多缺口滑块验证技术详解
Python+dddocr自动化突破多缺口滑块验证技术详解在当今互联网环境中，滑块验证已成为阻挡自动化程序的主要防线之一。本文将通过Python+dddocr实现一套完整的自动化解决方案，突破多缺口滑块验证，内容涵盖技术原理、实现细节和实战技巧。一、多缺口滑块验证的技术原理多缺口滑块验证是传统滑块验证的升级版，通过设置多个干扰项增加识别难度：验证机制图像生成验证逻辑背景图缺口碎片缺口匹配行为分析添
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
C# vs Python：谁更适合初学者？用5个关键点教你掌握深度学习中的线性代数墨瑾轩一起学学C#【四】c#python 深度学习
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索如何使用C#来入门深度学习的世界，特别关注其中的线性代数部分。你可能会好奇：“为什么是C#而不是Python？”别急，我们会在接下来的内容中详细解释这个问题，并通过对比两种语言的特点，让你明白选择C#进行深度学习并不是一个坏主意
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本