CHEN666CONG

序列识别问题的聚合交叉熵损失函数（ACE损失函数）

文本识别算法介绍

文本识别问题是一个经典的序列预测问题，他输入一个有序列信息的三维图像，输出一个预测序列。常用的文本识别框架为CNN+BiLSTM+CTC，和CNN+BiLSTM+Attention。经过CNN+BiLSTM将三维图像提取特征，得到2维的特征序列（T*C），然后通过CTC或Attention将特征序列转化为预测结果。
给定一张来自于训练集Q的图像I，它的文本标签S，文本所包含的类别{1, 2, · · · , |C|}，这张图像文本序列的长度L，通常的文本识别问题的损失函数为:

$L(w)=-\sum_{(I,S)\in Q}log(P(S|I;w))=-\sum_{(I,S)\in Q}\sum_{l=1}^{L}log(P(S_{l}|l,I;w))$

其中 $P(S_{l}|l,I;w)$ 表示在被预测序列的第l个字符预测结果为 $S_{l}$ 的条件概率。
对于上述公式的计算非常困难，因为得到的文本特征与标签文本序列存在不对齐的问题，实际上不能直接使用第二个式子。
CTC和Attention分别从两个方面解决了这个问题。

CTC是将得到的特征序列每一个时刻都预测后直接去掉其中的空格，仅得到剩下的预测字符序列，然后将这个字符序列与标签序列计算交叉熵损失。但是他的关键在于如何反向传播，CTC通过隐马尔科夫模型中的前向后向算法从标签序列倒推回可能得到这个标签的预测序列，这些序列的概率权值是不同的，然后再进行后续的反向传播。CTC层本身是没有变量的，因此他训练的目的是使特征提取时能够学会文本序列的排布信息特征。它的损失计算是基于第一个公式 $-\sum_{(I,S)\in Q}log(P(S|I;w))$ 。
Attention是直接增加了一个可训练的解码层，将非常长的特征序列解码为长的不同的预测文本。这相当于是将CTC中的前向反向算法替换为一种参数可训练的注意力机制。通过训练能够得到要预测某个位置的文本字符，需要从哪些特征中得到。相当于Attention层本身学习到了一种文本的排布信息特征。它的损失计算是基于第二个公式 $-\sum_{(I,S)\in Q}\sum_{l=1}^{L}log(P(S_{l}|l,I;w))$ 。

ACE交叉熵损失

本文提出了一种新颖的损失函数，这个损失函数不考虑序列中字符间的顺序，仅仅考虑一个字符串中某个类别的字符出现的次数。
我们在没有Attention机制的网络中直接计算 $-\sum_{(I,S)\in Q}\sum_{l=1}^{L}log(P(S_{l}|l,I;w))$ 是一种错误的做法，因为存在字符序列与特征序列的错位不对齐。基于此，文中提出了一种不需要考虑对齐的方案，即不考虑特征的顺序，仅仅计算各类别字符出现次数。

$L(w)=-\sum_{(I,S)\in Q}\sum_{l=1}^{L}log(P(S_{l}|l,I;w))\approx -\sum_{(I,S)\in Q}\sum_{k=1}^{|C|}log(P(N_{k}|k,I;w))$

其中|C|表示类别数， $P(N_{k}|k,I;w)$ 表示在图像I的预测结果中，第k个类别的字符出现的次数等于标签中给定次数 $N_{k}$ 的条件概率。
例如标签字符串为students，则损失函数的目标是，使识别结果的s,t出现两次，其他类出现一次（包括空白类）。

基于回归的ACE损失函数

我们通过CNN+BiLSTM得到的特征序列维度为（T * K），其中T为序列长度，K为字符类别数，我们定义输出的特征序列张量为Y，第t个时刻的特征向量为 $y^{t}$ ，第t个时刻第k个类别的预测概率为 $y_{k}^{t}$ 。整个字符序列中所有位置第k个类别出现的总概率为 $y_{k}=\sum_{t=1}^{T}y_{k}^{t}$ 。
我们定义 $y_{k}$ 与 $N_{k}$ 的平方损失（回归损失）:

$max\sum_{k=1}^{|C|}log(P(N_{k}|k,I;w))\Leftrightarrow min\sum_{k=1}^{|C|}(N_{k}-y_{k})^2$

数据集的损失函数表示为:

$L(w)=\frac{1}{2}\sum_{(I,S)\in Q}\sum_{k=1}^{|C|}(N_{k}-y_{k})^2$

T表示预测文本长度，|S|表示标签文本长度，我们用(T-|S|)表示字符串中空白字符的个数 $N_{\epsilon }=T-|S|$ 。

ACE回归损失梯度

首先损失 $L (w)$ 对输出 $y_{k}^{t}$ 求导

$\frac{\partial L(w)}{\partial y_{k}^{t}}=\frac{\partial L(w)}{\partial y_{k}}\frac{\partial y_{k}}{\partial y_{k}^{t}}=(y_{k}-N_{k})=(\sum_{t=1}^{T}y_{k}^{t}-N_{k})$

其中 $y_{k}^{t}$ 由softmax层得到，

$y_{k}^{t}=\frac{e^{a_{i}}}{\sum_{j}e^{a_{j}}}$

$y_{i}$ 对 $a_{i}$ 求导得到

$\frac{\partial y_{k}^{t}}{\partial a_{i}}=y_{i}(\delta_{ij}-y_{j})$

其中当 $i = j$ 时， $\delta_{ij}=1$ ，否则 $\delta_{ij}=0$

最终ACE回归损失梯度表示为:

$\frac{\partial L(I,S)}{\partial a_{k}^{t}}=\sum_{k'=1}^{|C|}\frac{\partial L(I,S)}{\partial y_{k'}^{t}}\frac{\partial y_{k'}^{t}}{\partial a_{k}^{t}}=\sum_{k'=1}^{|C|}(y_{k'}-N_{k})*y_{k'}^{t}(\delta_{kk'}-y_{k}^{t})=(y_{k}-N_{k})*y_{k}^{t}(1-y_{k}^{t})-\sum_{k'=1,k\neq k'}^{|C|}(y_{k'}-N_{k})*y_{k'}^{t}y_{k}^{t}$

回归损失的梯度消失

上面的回归损失函数存在着梯度消失问题，在训练开始的几个阶段，我们的输出对每个类别都有着平均的输出，即 ${y_{k'}^{t}=1/|C|}$ 。当我们的类别数C比较大时，例如汉字识别，类别数高达数千，此时 $y_{k'}^{t}$ 的数量级是 $10^-3$ ，上面公式中，数量级大约是 ${y_{k'}^{t}}^{2}$ ，即 $10^-6$ ，即相当小的梯度更新，完全无法训练。
即使我们的类别数并没有那么多，但是我们的梯度是 ${y_{k'}^{t}}^{2}$ ，它再对前面的层求导，每一次都会乘 $y_{k'}^{t}$ ，即梯度将会以指数级减小，梯度消失问题。

基于交叉熵的ACE损失函数

我们将网络预测的各类别字符数量当作一个概率分布， $\overline{y_{k}}=y_{k}/T$ ，将标签各类别字符数量当作另一个概率分布， $\overline{N_{k}}=N_{k}/T$ 。
我们使用交叉熵函数表示预测结果分布和标签分布的相似程度:
$L(I,S)=-\sum_{k=1}^{|C|}\overline{N_{k}}*ln\overline{y_{k}}$

这个损失函数对softmax之前的logits $a_{k}^{t}$ 求梯度:

$\frac{\partial L(I,S)}{\partial a_{k}^{t}}=\sum_{k'=1}^{|C|}\frac{\partial L(I,S)}{\partial \overline{y_{k}}}\frac{\partial \overline{y_{k}}}{\partial y_{k'}^{t}}\frac{\partial y_{k'}^{t}}{\partial a_{k}^{t}}=\sum_{k'=1}^{|C|}-\frac{\overline{N_{k}}}{\overline{y_{k}}}*\frac{1}{T}*y_{k'}^{t}(\delta_{kk'}-y_{k}^{t})=-\frac{1}{T}*\sum_{k'=1}^{|C|}\overline{N_{k}}*\frac{y_{k}^{t}}{\overline{y_{k}}}*(\delta_{kk'}-y_{k}^{t})$

交叉熵损失

在上述公式中， $N_{k}$ 是常数， $(\delta_{kk'}-y_{k}^{t})$ 是 $y_{k}^{t}$ 的线性函数，损失函数主要取决于 $\frac{y_{k}^{t}}{\overline{y_{k}}}$ ，我们希望他尽可能是常数级的。

在初始训练阶段，不同时刻t，不同类别k均匀分布，此时 $\overline{y_{k}}=y_{k}/T=\sum_{t=1}^{T}y_{k}^{t}/T \approx y_{k}^{t}，\frac{y_{k}^{t}}{\overline{y_{k}}}=1$
在随后的训练阶段，不同时刻t，某一个类别k’的概率占主要部分，而其他类别非常小，，此时 $\overline{y_{k}}=y_{k}/T=\sum_{t=1}^{T}y_{k}^{t}/T \approx y_{k}^{t}/T，\frac{y_{k}^{t}}{\overline{y_{k}}}=T$

可以看到这个值基本上是1～T的常量。

2维预测问题

很多的文本呈二维的分布在图片上，例如一些不规则行文本，弯曲，仿射，多行文本等。这些问题使用传统的方法无法有效解决，在这里我们可以使用ACE损失函数解决。ACE损失函数可以很自然的应用于这些文本识别，因为他并不考虑文本的顺序，而仅仅考虑文本出现的次数或者频率，这在2维图像上也是可以计算的。
假设输出的2维预测图高度H，宽度W（经过CNN，不等于原图大小），第h行第w列的预测输出表示为 $y_{k}^{hw}$ ，我们定义
$\overline{y_{k}}=\frac{y_{k}}{W*H}=\frac{\sum_{w=1}^{W}\sum_{h=1}^{H}y_{k}^{hw}}{W*H} ， \overline{N_{k}}=\frac{N_{k}}{H*W}$

损失函数表示为

$L(I,S)=-\sum_{k=1}^{|C|}\overline{N_{k}}*ln\overline{y_{k}}=-\sum_{k=1}^{|C|}\frac{N_{k}}{H*W}*ln\frac{y_{k}}{W*H}$

我们直接将原始的2维预测拉直为1维预测结果，并计算损失。

实验评估

本文在自然场景文本识别，离线手写字符识别，日常场景目标计数三个任务中进行实验评估。我们分别使用1维和2维方法进行预测，得到的预测结果分别为H的特征序列和W*H的特征图。

场景文本识别

本文使用两种类型的文本识别数据集，规则文本如iiit5k，SVT，ICDAR2003，ICDAR2013，不规则文本如ICDAR2015，CUTE80，SVT-Perspective。规则数据集用于研究ACE损失函数1维预测，不规则数据集用于研究2维预测。

实现细节

在规则数据集上的1维文本识别基于网络CRNN，在synth80k的800万合成数据集上训练。

在不规则数据集上的2维文本识别基于网络ResNet-101，conv1被替换为3*3，步长1，conv4_x作为输出，训练数据集来自800万合成数据集和400万张从8万大图中裁剪下来的包含文本的数据集。所有的输入图像都被resize和padding到（96，100）大小，并且输出预测图大小（12，13），相当于8倍解析度下采样。我们然后将（12，13）的2维预测图拉直为12x13的一维预测序列，并使用ACE损失函数。

实验结果

回归损失与交叉熵损失

我们对规则文本进行1维预测，分别使用ACE回归损失与交叉熵损失。
回归损失存在梯度消失的问题，前面的一些层参数无法训练到，虽然回归损失能够收敛，但是收敛最终的单词错误率与字符错误率都非常高；交叉熵损失能够最终收敛到一个非常高的水平。与原始的CRNN网络相比较，表现有略微的提升。

不规则文本

我们在不规则文本上使用2维预测，仅仅采用ResNet-101的CNN网络，没有加入LSTM等序列信息。最终我们发现这个模型在CUTE和ICDAR15数据集上有非常好的效果，尤其是CUTE，这个数据集的图像都拥有高解析度，弯曲严重，严重的不规则文本，非常适合ACE的2维预测。网络模型在没有字典的SVTP数据集上效果一般，因为这个数据集图像解析度相当低，仅仅使用CNN网络而不采用LSTM很难提取解析度如此低的文本特征。

我们可视化最终的12x13大小的预测图，能够发现，在2维空间中预测结果字符与原始图像中文本有着非常相似的分布。

你可能感兴趣的:(神经网络模型)

直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
YOLOv9改进，YOLOv9检测头融合，适合目标检测、分割任务挂科边缘 YOLOv9改进目标检测人工智能计算机视觉 YOLO
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
YOLOv8改进，YOLOv8检测头融合RFAConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔” ningaiiii 机器学习与深度学习神经网络 php 人工智能
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔”1.引言径向基函数网络（RadialBasisFunctionNetwork,RBF）是一种特殊的前馈神经网络，它的核心思想是通过“灯塔”来照亮数据的分布。RBF网络使用径向基函数（如高斯函数）作为隐层神经元的激活函数，能够快速学习数据的局部特征，特别适合分类和函数逼近问题。2.算法原理2.1网络结构RBF网络的基本组成包括：输入层：接收原
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
YOLOv10改进，YOLOv10检测头融合RepConv卷积，添加小目标检测层（四头检测）+CA注意机制，全网首发挂科边缘 YOLOv10改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
用TensorFlow.NET搭建一个全连接神经网络 chiyong7717 人工智能 c#python
在本文中，我们将学习如何在C＃中构建神经网络模型计算图。与线性分类器相比，神经网络的关键优势在于它可以分离不可线性分离的数据。我们将实现此模型来对MNIST数据集的手写数字图像进行分类。我们要构建的神经网络的结构如下。MNIST数据的手写数字图像有10个类（从0到9）。该网络具有2个隐藏层：第一层具有200个隐藏单元（神经元），第二层具有10个神经元（称为分类器层）。让我们一步一步地用代码来实现：
YOLOv11改进，YOLOv11检测头融合RepConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等任务挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉
摘要作者提出了一种简单而强大的卷积神经网络架构，其推理阶段采用与VGG类似的网络体结构，仅由一堆3x3卷积和ReLU组成，而训练阶段的模型具有多分支拓扑。这种训练阶段和推理阶段架构的解耦通过结构重参数化技术实现，因此我们将该模型命名为RepVGG。#理论介绍RepConv通过将多个卷积操作合并成一个卷积操作来优化计算的。首先在训练过程中使用多种操作（如多个卷积层、跳跃连接等）来提高模型的表达能力和
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
python中tensorflow_python机器学习TensorFlow框架弦歌缓缓
TensorFlow框架关注公众号“轻松学编程”了解更多。一、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统
详解深度学习中的Dropout nk妹妹深度学习深度学习人工智能
Dropout是一种在神经网络训练中常用的正则化技术，其操作是在每次训练迭代中随机“丢弃”一部分神经元（即将其输出置为零）。以下是对这一操作的详细解释：一、基本思想Dropout的基本思想是减少神经元之间的复杂共适应关系，迫使网络在训练过程中不依赖于特定的神经元子集。这有助于增加模型的泛化能力，防止过拟合。二、具体实现随机选择：在每次训练迭代中，以一定的概率p（通常设定为0.2到0.5之间）随机选
深度强化学习(DRL)原理与代码实战案例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1人工智能的演进：从符号主义到连接主义人工智能(AI)的发展经历了漫长的历程，从早期的符号主义到如今的连接主义，标志着人工智能从基于规则的推理演变到基于数据的学习。符号主义AI试图通过逻辑和符号系统来模拟人类的思维过程，而连接主义AI则侧重于构建类似于人脑神经网络的结构，通过大量数据进行训练，从而实现智能。1.2强化学习：智能体与环境的互动强化学习(ReinforcementLea
神经网络常见操作（卷积）输入输出被放养的研究生计算机视觉神经网络深度学习机器学习
卷积dim=d的tensor可以进行torch.nn.Convnd(in_channels,out_channels),其中n=d-1,d-2对于torch.nn.Convnd(in_channels,out_channels)，改变的是tensor的倒数n+1维的大小全连接使用torch.nn.Linear(in_features,out_features,bias)实现Y=XWT+b,其中X的
基于深度学习CNN网络 mini-xception网络实现构建一个完整的人脸表情检测_识别分类系统，包括训练、评估、前端和服务端代码计算机c9硕士算法工程师卷积神经网络深度学习 cnn 分类
人脸表情检测该项目已训练好网络模型，配置好环境即可运行使用，效果见图像，实现图像识别、摄像头识别、摄像头识别/识别分类项目-说明文档-UI界面-cnn网络项目基本介绍：【网络】深度学习CNN网络mini-xception网络【环境】python>=3.5tensorflow2opencvpyqt5【文件】训练预测全部源代码、训练好的模型、fer2013数据集、程序算法讲解文档【类别】对7种表情检测
单层感知机----或门实现翔翔子1号
文章目录一、前言---感知机二、实现过程1.引入库2.或门真值表-训练集数据3.建立model,初始化定义权重、偏置、学习率4.前向传播定义5.训练过程(更新权重和偏置)6.训练模型一、前言—感知机感知机（Perceptron）模型是由美国心理学家弗兰克罗森布拉特于1957年提出的一种具有单层计算单元的神经网络。这个模型旨在建立一个线性超平面来解决线性可分问题，就如我们现在的或门分类。二、实现过程
探秘远程 IO 模块：工业数字化转型的幕后功臣明达技术分布式物联网
在现代工业的复杂脉络中，远程IO模块宛如一个个默默发力的“神经末梢”，虽不常被大众瞩目，却在工业自动化与数字化进程中扮演着举足轻重的角色。定义简单来说，远程IO模块是一种能实现数据远程采集与控制的设备。它就像工业系统中的“桥梁”，一端连接着现场的各种传感器与执行器，如温度传感器、压力传感器、电机、阀门等；另一端则通过网络与主控系统（如PLC、工业计算机）相连。想象一下，在一个大型工厂中，分布着众多
深度学习-45-大型语言模型LLM之本地化部署运行自己的大模型皮皮冰燃深度学习深度学习人工智能
文章目录1深度学习1.1神经网络和深度学习1.2神经网络的工作原理1.3神经网络的专业术语2LLM概述2.1大模型的"大"是指什么?2.2训练大模型有多烧钱？2.3如何入门大模型？2.4LLM的结构2.4.1Transformer2.4.2Prompts2.4.3FineTuning3本地跑大模型3.1Ollama运行开源LLM3.1.1启动并运行3.1.2使用api访问3.1.3设置外网访问3.
深度学习笔记——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总好评笔记深度学习笔记深度学习笔记神经网络人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要介绍深度学习的前向传播与反向传播，以及前馈神经网络与反馈神经网络。文章目录前向传播与反向传播前向传播（ForwardPropagation）反向传播（BackPropagation）总结神经网络简介结构类型前馈神经网络（FeedforwardNeuralNetwork,FFNN）特点常见变体反馈神经网络（Feedb
神经网络初始化 (init) 介绍迷路爸爸180 神经网络人工智能深度学习初始化 init
文章目录引言1.初始化的重要性1.1打破对称性1.2控制方差1.3加速收敛与提高泛化能力2.常见的初始化方法及其应用场景2.1Xavier/Glorot初始化2.2He初始化2.3正交初始化2.4其他初始化方法3.如何设置初始化4.基于BERT的文本分类如何进行初始化4.1项目背景4.2模型构建4.3模型训练与评估4.4结果分析结论参考资料引言在深度学习的世界中，构建一个高效且性能优异的神经网络模
K8s组件全解析，你需要知道的一切秘密 master_chenchengg 能力提升面试宝典技术 IT信息化
K8s组件全解析，你需要知道的一切秘密K8s架构概览APIServer：K8s的门面担当控制平面组件详解etcd：高可用的数据存储基石工作负载管理与调度策略网络模型与服务发现机制存储编排与持久化解决方案日志监控与故障排查工具链K8s架构概览Kubernetes（简称K8s）作为现代云原生应用部署的主流平台，其核心在于简化容器化应用的管理和扩展。K8s的基本架构围绕着集群、节点和Pod等概念构建。一
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
使用神经网络拟合6项参数 Andrew_Xzw 神经网络人工智能深度学习开发语言机器学习 python
使用神经网络拟合6项参数1.数据预处理1.1添加参数解析1.2数据预处理逻辑1.3数据归一化及划分1.4数据标签处理逻辑1.5数据转torch2.定义model2.1CNN_LSTM2.2Transformer3.定义train脚本3.1loss和optimizer3.2train3.3predict1.数据预处理1.1添加参数解析为了方便管理模型和训练等参数，统一用参数解析。defparse_a
3DUnetCNN 项目常见问题解决方案魏纯漫
3DUnetCNN项目常见问题解决方案3DUnetCNNPytorch3DU-NetConvolutionNeuralNetwork(CNN)designedformedicalimagesegmentation项目地址:https://gitcode.com/gh_mirrors/3d/3DUnetCNN项目基础介绍3DUnetCNN是一个基于PyTorch的3DU-Net卷积神经网络（CNN）
深度学习模块C2f代码详解你是狒狒吗目标检测人工智能计算机视觉 pytorch YOLO 神经网络
C2f是一个用于构建卷积神经网络（CNN）的模块，特别是在YOLOv5和YOLOv8等目标检测模型中。这个模块是一个改进的CSP（CrossStagePartial）Bottleneck结构，旨在提高计算效率和特征提取能力。下面是对C2f类的详细解释：类定义和初始化Python复制classC2f(nn.Module):“”“FasterImplementationofCSPBottleneckw
每天五分钟深度学习框架pytorch：基于vgg块搭建VGG卷积神经网络每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch cnn VGG 卷积神经网络
本文重点前面我们使用pytorch搭建了vgg块，本文我们使用vgg块搭建卷积神经网络VGG16，我们先来看一下vgg16的模型结构是什么样的：搭建vgg16importtorchfromtorchimportnndefvgg_block(num_convs,in_channels,out_channels):net=[nn.Conv2d(in_channels,out_channels,kern
PyTorch 神经协同过滤 (NCF) 推荐系统教程陌北v1 pytorch python NCF 神经协同过滤
目录教程概述1.神经协同过滤模型概述NCF模型的主要组成部分：2.数据加载与预处理3.定义神经协同过滤模型4.训练模型5.模型评估6.推荐物品7.完整示例8.总结在本教程中，我们将使用PyTorch实现一个神经协同过滤（NeuralCollaborativeFiltering，简称NCF）推荐系统。神经协同过滤是一种基于深度学习的推荐系统模型，通过学习用户和物品的嵌入表示来预测用户对物品的评分，进
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他