DU_YULIN

CRNN论文阅读笔记

文章目录

前言

一、摘要

二、使用步骤

1.引入库

2.读入数据

总结

前言
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

因项目需求，最近在学习OCR相关的深度学习模型，之前虽然看过CRNN相关的一些文章，熟悉大体的模型框架，但还没有阅读过原论文，今天抽时间看了下，因此这里做下阅读笔记。

CRNN论文标题： An End-to-End Trainabel Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition.

Abstract

论文指出，基于图像的字符序列识别是计算机视觉方面的具有代表性的研究方向。论文探索了自然场景文本识别问题，这是基于图像的字符序列识别中一个及其重要以及很有挑战性的任务。论文提出了一个新颖的网络架构，它集成了特征提取层（CNN），序列识别层（RNN），转录层（CTC）。

和之前的自然场景文本识别系统相比，本文提出的网络架构有4个特点：

1. 它是训练过程是端到端的，即end-to-end.

2. 它可以识别任意长度的文本序列；

3. 没有预定义文本字典的限制；

4. 生成一个有效且更小的网络模型。

论文在IIIT-5K, Street View Text 和 ICDAR 这些数据集进行了benchmark, 证实本论文提出的网络模型超过了当时已存在的其它模型。

1. Introduction

论文聚焦于计算机视觉的一个经典问题：基于图像的文本序列识别。

在现实世界中，像场景文本，手写字体以及乐谱这些目标，通常是以序列，而不是独自出现。不像一般的目标识别，识别这种序列目标通常需要系统预测一串目标label，而不是单一的。因此，识别这种目标可以转换为序列识别问题。另外，序列识别的一个独特特性是目标的长度是任意的。论文中的例子：英文单词可以是2个字符组成，e.g. "OK", 也可以是15个字符组成，e.g. "congratulations"。但是，深度卷积网络（Deep Convolution Neural Network, DCNN）只能用于解决固定输入与输出维度的问题，因此不适用于本文基于图像的可变长度的序列识别问题。

循环神经网络（Recurrent neural networks, RNN）就是为解决序列识别问题而设计的。RNN的优势之一就是：不论在训练还是测试阶段，RNN都不需要知道图像中序列每一元素的位置。但是，预处理过程是极其重要的：将输入的目标图像转换为图像特征序列。这一预处理过程只是现有基于RNN实现的系统流水线上的一个组成部分，因此不是end-to-end。

论文也介绍了几个基于传统方法进行场景文本识别的方法，但是识别结果是比基于神经网络方法要差的。

论文提出的新颖的网络模型，即卷积循环神经网络（Convolutional Recurrent Netural Network， CRNN)就是为识别图像中文本序列而设计的。对比DCNN, CRNN有如下几方面的优势：

1. 可以直接对文本序列labels（e.g. words 单词）进行学习，不需要详细的注解（e.g. characters 组成单词的每一字符）；

2. 具有DCNN的特性：可以直接从图像中学习特征表示；

3. 具有RNN的特性：能够生成labels序列；

4. 对序列目标的长度没有限制，但是在训练和测试阶段要统一识别图像的高度；

5. 实现了场景文本识别的最优；

6. 模型具有比DCNN更少的参数，消耗更少的存储空间。

2. The Proposed Network Architecture

Figure 1图示了CRNN的网络结构。CRNN由三部分组成，从下往上依次为：卷积层（Convolutional Layers）,循环层（Recurrent Layers），转录层（Transcription Layers）。

卷积层用于从输入图像中提取特征序列；卷积层的输出作为循环层的输入，然后循环层为每一特征序列做预测，输出预测的标签序列；循环层的输出作为转录层的输入，最后转录层将循环层的输出标签序列转换为最终的标签序列，即去除冗余字符。

虽然CRNN包含CNN和RNN两种不同的网络结构，但是可被一个损失函数训练（CTCLoss）.

2.1 特征提取网络（CNN）

在CRNN中，卷积层由convolutional和max-pooling组成，但是移除了fully-connected部分。对于输入CNN的图片要进行缩放，保证所有的输入图片由相同的高度。Recurrent层的输入是特征向量序列，它是从卷积层的输出，即feature maps中提取。序列中每一特征向量是feature maps按列从左向右生成的，即第个特征向量是由所有feature maps中第列拼接而成。每一列的宽度固定为1 pixel。

CNN输出的feature maps中每一列和输入图像的一个矩形区域，即感受野相关，输入图像上矩形区域的顺序和feature maps上相对应的从左到右的列的顺序一样，如同Fig.2 图所示。可把特征序列中的每一特征向量视为输入图像相应矩形区域的图像描述符。

CRNN正是将CNN这种深层输出特征（feature maps）转换为序列式的表达来保持不变性以应对序列目标长度的变化。（将CNN的输出feature maps转换为向量特征序列作为RNN的输入，RNN可以训练变长特征输入。）

2.2 序列标签化（Sequence Labeling）

CRNN的循环层是一个双向RNN,连接卷积层的输出。循环层对卷积层输出的特征序列 $x = x_{1}, x_{2},...x_{T}$ 每一个特征向量 $x_{t}$ 进行预测，输出 $y_{t}$ 即label。

循环层的优势有三点：

1. RNN有一个强大的能力：捕获序列的上下文信息。拿场景文本识别为例，宽的字符可能要几个特征向量来描述，如Fig.2所示。除此之外，一些歧义字符可以通过上下文信息被被简单地区分，比如“i”,"l"与单独识别这两个字符相比，通过对比字符高度可以更简单的区分它们。

2. RNN 可以反向传播误差到输入，CRNN可以联合训练循环层和卷积层；

3. RNN 可以训练任意长度的序列；

传统的RNN如下图所示：

传统RNN在输入层和输出层间有一个自连接的隐藏层。它每次接受特征序列中的一个特征向量 $x_{t}$ ，使用非线性函数，将当前输入 $x_{t}$ 和过去的状态 $h_{t-1}$ 作为输入更新内部状态 $h_{t}$ ： $h_{t} = g(x_{t}, h_{t-1})$ 。 $y_{t}$ 基于 $h_{t}$ 生成。然而，传统的RNN有一个缺点：容易发生梯度爆炸问题，这个问题限制了RNN可以保存的上下文范围，因而增加了训练过程的负担。

长短期记忆（Long Short Term Memory, LSTM）也是RNN的一种，它解决了传统RNN的梯度爆炸问题，如下图Figure.3(a)所示：

LSTM有一个记忆cell和三个Gate组成，分别为Input Gate, Output Gate和Forget Gate。记忆Cell负责保存过去的上下文信息，Input Gate 和 Output Gate保证Memory Cell可以保存长期的上下文信息， Forget Gate负责清空Memory Cell中的上下文信息。

LSTM是有方向的，它只能使用过去的上下文信息。但是基于图像的序列中，两个方向的上下文信息都是有用并且重要的。因此，CRNN使用了双向LSTM，前向和后向, 可以堆叠多个双向LSTM, 如图Figure.3(b)所示。这种深层的LSTM结构可以获得更高级别的抽象特征，在语音识别任务上获得了显著的性能提升。

在循环层，误差传播的方向是和Fig.3(b)图像中箭头方向相反。论文在实现时，创造了一个特别的网络层作为CRNN的卷积层和循环层的桥梁，被称作“Map-to-Sequence”。

2.3 转录（Transcription）

转录是这样一个过程：将循环层输出的预测labels序列转化为最终的标签序列（祛除了RNN中冗余的标签）。从数学角度来讲，转录是在循环层输出的每一预测labels中查找使条件概率最高的label序列。有两种转录方式：基于受限词典的（lexicon-based）、基于自由词典的（lexicon-free）。词典（lexicon）是labels 序列的集合，基于词典的预测是受限的，比如，拼写检查词典。而基于自由词典表示预测是不受词典限制的，即没有词典。基于受限词典的转录方法，通过选择最高概率的label序列作为转录层的输出序列。

2.3.1 label序列的概率计算

论文使用了在Connectionist Temporal Classification(CTC)中定义的条件概率，即在转录层输出的预测label序列 $y=y_{1}, y_{2},...y_{T}$ 的条件下，计算ground truth label序列的概率。论文使用概率的对数似然作为目标来训练网络，仅需要预测图片和相应的ground truth label序列，节省了定位每一单独字符精确位置的人力。

条件概率公式如下所示：

$\pi$ 表示一个可能label序列，表示ground truth label序列， $\beta (\pi)=I$ 表示将一个可能的label序列映射为ground truth label序列， $\beta()$ 表示映射函数，它用于去除冗余字符以及‘-’ blank字符。

$p(\pi|y) = \prod_{t=1}^{t=T}(y_{\pi_{t}}^{t})$ ，其中 $y_{\pi_{t}}^{t}$ 表示t时刻预测标签为 $\pi_{t}$ 的概率

2.3.2 自由词典转录（lexicon-free）

在lexicon-free 模式下，序列 $I^{*}$ 定义为Eq.(1)有最高概率值。论文中说没有可用的算法可以精确找到Eq.(1)的最高概率值的序列。论文使用了近似算法求得序列 $I^{*}\approx \beta(argmax_{\pi}(p(\pi|y)))$ ，比如在时刻获得最大概率的label $\pi_{t}$ ，然后通过映射函数将label序列映射为 $I^{*}$ 。

2.3.3 基于词典的转录（lexicon-based）

在lexicon-based模式下，每一个测试用例都和词典相关。基本上，识别label序列可通过在词典中挑选最高条件概率的序列来实现。但是，词典一般都是比较大的，比如50k-words Hunspell spell-checking 词典，在这个词典上进行完全查找将耗费很长的时间。论文方法采用lexicon-free的方法来转录预测的label序列通常是更接近ground truth label序列的（在距离度量标准）。这允许仅在最近邻候选中查找，即 $N_{\delta } (I^{'})$ 。这里 $\delta$ 论文中说是最大的度量距离（个人理解为threshold, 查找的label序列与ground truth label序列的距离应该小于或等于这个threshold。）

论文提到 $N_{\delta } (I^{'})$ 可通过BK-Tree这种数据结构来高效查找。论文提到，每一词典的BK-tree被offline生成，然后应用这个BK-tree进行online 查找，查找的序列和ground truth label 序列的距离应该小于或等于 $\delta$ 。

2.4 网络训练

训练数据集表示为 $\chi \{\mathit{I}_{i}, \textbf{I}_{i}\}_{i}$ , $\mathit{I}_{i}$ 为训练图像， $\textbf{I}_{i}$ 为ground truth label序列。网络训练的目标是最小化ground truth条件概率的负对数似然的，如下式：

Eq.(3)中 $y_{i}$ 表示循环层输出的label序列，这个函数用于计算输入图像和ground truth label序列的损失值。因此，这个网络是在输入为图像和ground truth 序列的end-to-end训练网络，消除了手动标注输入图像的每一个字符的过程。

训练网络应用随机梯度下降的优化算法（stochastic gradient descent, SGD），应用ADADELTA更新学习率。ADADELTA不需要手动设置学习率，而且比动量方法（momentum）更快。

3. 实验

论文为场景文字识别和乐谱识别进行了benchmark实验。

3.1 数据集

CRNN网络在合成数据集上训练一次，然后再真实环境进行测试（没有进行任何微调操作）。

论文使用了4个流行的benchmark数据集：ICDAR2003(IC03), ICDAR2013(IC13), IIT 5k-word(IIT5k), Street View Text(SVT)。

3.2 CRNN网络详细结构

为了匹配英文文本的识别，在3rd 和4th max pooling层，采用1x2 大小的矩形窗口（取代方形pooling窗口），这样可以输出的feature maps更宽，使提取的特征序列更长，比如，对于包含10个字符的100x32的图像，可以生成一个长度为25的特征序列，这个长度超过了大部分的英文单词的长度。矩形pooling 窗口可以生成矩形感受野（如图Fig.2所示），这对于识别一些比较窄的字符很有益，比如‘i’和‘I’。

论文发现batch normalization对于训练深层网络特别有用。论文中在5th和6th卷积层分别添加了batch normalization层，加速网络的训练。

总结

CRNN这篇论文就介绍到这里，后面会进行网络训练，如果有时间，会对CRNN的训练进行介绍。另外对于论文实验部分没有详细介绍，如果大家感兴趣，可以自行阅读，谢谢！

【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
Excel处理控件Aspose.Cells教程：Java 在 Excel 中插入和删除行和列
Aspose.Cells是Excel电子表格编程API，可加快电子表格的管理和处理任务，支持构建能够生成，修改，转换，呈现和打印电子表格的跨平台应用程序。同时不依赖于MicrosoftExcel或任何MicrosoftOfficeInterop组件，AsposeAPI支持旗下产品覆盖文档、图表、PDF、条码、OCR、CAD、HTML、电子邮件等各个文档管理领域，为全球.NET、Java、C++等1
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
[SQLSERVER][SQL]监控SQlserver存储过程 awonw sqlserver sqlserver sql 数据库
USE[master]GO/******Object:StoredProcedure[dbo].[sp_who_run_plus]ScriptDate:2021-09-1016:51:26******/SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATEPROC[dbo].[sp_who_run_plus]ASBEGINSELECTDB_NAME(er.[
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
Python+dddocr自动化突破多缺口滑块验证技术详解
Python+dddocr自动化突破多缺口滑块验证技术详解在当今互联网环境中，滑块验证已成为阻挡自动化程序的主要防线之一。本文将通过Python+dddocr实现一套完整的自动化解决方案，突破多缺口滑块验证，内容涵盖技术原理、实现细节和实战技巧。一、多缺口滑块验证的技术原理多缺口滑块验证是传统滑块验证的升级版，通过设置多个干扰项增加识别难度：验证机制图像生成验证逻辑背景图缺口碎片缺口匹配行为分析添
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
C# vs Python：谁更适合初学者？用5个关键点教你掌握深度学习中的线性代数墨瑾轩一起学学C#【四】c#python 深度学习
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索如何使用C#来入门深度学习的世界，特别关注其中的线性代数部分。你可能会好奇：“为什么是C#而不是Python？”别急，我们会在接下来的内容中详细解释这个问题，并通过对比两种语言的特点，让你明白选择C#进行深度学习并不是一个坏主意
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s