DU_YULIN

OCR端到端检测识别模型：PGNet论文阅读笔记

文章目录

前言
摘要（Abstract）
1. 介绍（Introduction)
2. 相关工作（Related Work)
3. 方法（Methodology）
- 3.1 点聚集CTC(Point Gathering CTC)
- 3.2 网络架构（Network Architecture)
- 3.3 标签生成（Label Generation)
- 3.4 训练对象（Training Objectives)
- 3.5 图强化模块（Graph Refinement Module)
4 实验（Experiments）
总结

前言

因项目需要，最近开始阅读PGNet论文，期望了解这一OCR端到端文本检测与识别模型原理与细节，期望能够应用到项目中带来OCR的提升。

论文题目：PGNet:Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network

论文link: https://arxiv.org/pdf/2104.05458.pdf

摘要（Abstract）

论文中提到，任意形状的文本的识别（包括检测）受到越来越多的关注。但是现有的文本识别器都是基于两阶段（two -stage)框架或者基于字符的方法（character-based)。这些方法都要用到NMS(Non-Maximum Suppression)，ROI(Region-of-Interest)或者字符集标注操作（这些操作都是非常耗时的）。该论文提出的一种新颖的网络结构-全卷积点聚集网络（fully convolutional Point Gathering Network-PGNet)，实现了实时检测与识别任意形状的文本，同时避免了上述提到的耗时操作。

PGNet是一阶段的文本识别器（包含检测），应用 PG-CTC损失 来学习像素级字符分类特征图，避免了应用字符级标注。论文通过使用PG-CTC解码器，可以从二维空间收集到高级别的字符分类向量，然后对这些向量进行解码转换为文本符号，因为这个过程中没有使用NMS或者ROI技术，所以保证了PGNet的高效执行。

PGNet也考虑了每个字符与它的临近字符的关系，应用 图强化模块（Graph Refinement Module, GRM) 来优化识别结果并提升端到端的（end-to-end) 性能。

实验证实了论文方法在保证识别准确率的同时提高了执行速度。尤其在数据集 Total-Text, 实现了46.7 FPS，超过了已有的识别器一大截。

1. 介绍（Introduction)

任意形状的文本检测与识别是很有挑战性的，目前大部分解决方案（如图Fig.2）都有如下劣势：
（1）两阶段网络通常都博爱阔NMS和RoI这两种非常耗时的操作，比如RoISlide 和 BezierAlign;
（2）训练时需要字符级标注，这是非常费时费力，比如 Mask TextSpotter;
（3）使用预定义规则对非常规文本方向进行识别，导致识别失败，比如 TextDragon 和 Mask TextSpotter 假设文本方向为从左到右或者从上到下，这些都阻碍了正确识别有挑战性的文本。

论文提出实时解析（检测与识别）文本的新框架，即PGNet, 它应用了一种成为点聚集的操作（point gathering)。PGNet是一种基于多任务学习的单阶段文本解读器，架构如图Fig.3所示。

在模型推理阶段：论文中使用FCN(Fully convolutional network)模型来学习文本区域包含的各种信息，包括文本中心线（text center line, TCL， 1 通道特征图), 文本边界偏移（text border offset, TBO, 4通道特征图-TCL每一像素距离文本区域上、下边界点的偏移量），文本方向偏移（text direction offset, TDO, 2通道特征图-TCL每一像素到下一个文本阅读位置的偏移量）以及文本字符分类特征图（text character classification, TCC, n通道特征图-n为字符类别数）。基于像素的字符分类特征图由PG-CTC（Point Gathering CTC)损失函数训练得到，避免了字符标注操作。

在后处理阶段：在每一个文本实例中可以根据TCL和TBO特征图提取出带有文本方向的中心点序列；可以从TBO特征图获取文本检测的结果；应用PG-CTC解码器，论文将高级别的二维TCC特征图转换为字符分类概率向量序列，用这个概率向量序列可以解码出最终的文本识别结果。

受到 SRN 和 GTC 的启发，论文提出使用 图强化模块（GRM) 来进一步提升端到端识别性能。文本序列中的点可视为图（graph）中的一个节点（node)，每一个节点的表现能力可通过相邻的语义上下文（semantic context）和视觉上下文信息（visual context）来提升，字符分类结果理应更加准确。

论文贡献主要包括如下三点：
（1）提出PGNet，避免了字符集标注，NMS，RoI这些耗时的操作，实现了更好的端到端性能并且速度更快。
（2）提出一种重建文本解读方向的机制，在更有挑战性的场景和非传统文本方向上能够准确识别文本。
（3）提出GRM模块来提升CTC识别结果。

2. 相关工作（Related Work)

论文中主要对现有的端到端文本识别器（CharNet, TextNet, Mask TextSpotter, TextDragon, ABCNet）和图神经网络（Graph Neural Networks) 进行简要介绍，这里就不赘述了。

这里特别提一下，论文使用空间图卷积网络（Spatial Graph Convolutional Networks）来对当前点和它的邻居的语义信息进行推理进而提升CTC识别结果。

3. 方法（Methodology）

论文首先介绍了PGNet的执行流程（如图Fig.3所示）：
首先将图像输入带有FPN（Feature Pyramid Networks）的backbone中，输出特征图 $F_{visual}$ 。然后 $F_{visual}$ 被用来预测TCL, TBO, TDO, TCC这四个特征图（以并行多任务学习的方式），这四个特征图的宽和高为输入图像的 $1 / 4$ 。在训练阶段，TCL，TBO，TDO被相同尺度的标签特征图监督学习，PG-CTC损失被用于训练像素级的TCC特征图（PG-CTC解决了需要字符级标注的问题）。在推理阶段，从TCL特征图中提取每一文本实例的中心点序列，然后根据TDO特征图来对中心点序列进行排序进而恢复文本正确的识别顺序，让PGNet能够识别非常规文本方向的文本。根据TBO特征图提供的相应边界偏移信息，PGNet实现了对每一文本实例的多边形检测。同时，PG-CTC解码器能够将高级别的二维TCC特征图序列化成字符分类概率序列，对该概率序列解码即为最终的文本识别结果。

3.1 点聚集CTC(Point Gathering CTC)

PG（point gathering)操作在PGNet的训练和推理阶段扮演了重要的角色，它帮助摆脱了字符级标注，NMS， RoI操作。PGNet中的TCC是由37个字符（37通道）组成的特征图，包括26个字母，10个阿拉伯数字以及1个背景类。PG操作主要依据每一文本实例的中心点从TCC特征图中聚集字符分类概率序列，公式如下所示：

其中， $\pi =\{p_{1}, p_{2},...,p_{N}\}$ 是长度为 $N$ 的中心点序列。 $P_{\pi}$ 是大小为 $N\times37$ 的字符分类概率序列。

在训练阶段，使用PG-CTC损失能够让像素级的TCC特征图的训练免于字符集标注的需要。经典的CTC损失函数解决了源序列与目标序列长度不一致的问题。CRNN框架将特征图的高度转换为1，但是在识别弯曲文本时容易受到背景噪声的影响。2D-CTC将CTC的搜索路径扩展到二维空间，但是仍然不能处理一张图片含有多个文本实例的情况。论文提出的PG-CTC解决了这个问题，损失函数公式为 $CTC\_loss(P,L)$ ，这里 $P$ 表示字符分类概率序列， $L$ 表示对应的转录标签。对于一张图片含有 $M$ 个文本实例，中心点坐标序列表示为 $\{\pi_{1}, \pi_{2}, ...,\pi_{M}\}$ ，对应的转录标签为 ${L_{1}, L_{2}, ..., L_{M}\}$ ，定义的PG-CTC损失公式为：

（这里没有细说这个 $CTC\_loss$ 计算公式是否和经典的 $C T C$ 一样，要看源码才能进一步确认）
这里计算多边形文本实例级别的标注的中心线，对其进行密集采样得到训练过程需要的中心点序列 $\pi_{i}$ 。应用大量的训练数据，TCC中每一像素的字符分类信息都可以被学习。

在推理过程中，PG-CTC解码器简化了端到端任意形状文本识别器的步骤，PG-Net中去除了NMS和RoI操作。在TCL特征图中的文本区域中提取中心点序列 $\pi$ ，按照正确的阅读顺序进行排序。论文中使用形态学方法获得文本区域的骨架并把它作为中心点序列。中心点序列中的每个点的方向可以从TDO特征图中获得，根据所有点的方向计算一个平均方向，根据中心点序列在这一平均方向上投影长度来排序，最终获得中心点序列 $\pi$ 。字符分类概率序列 $P_{\pi}$ 可从公式（1）获得，PG-CTC解码器可以表示为：

这里 $R_{\pi}$ 表示中心点序列 $\pi$ 的转录。关于多边形重建，论文从TBO特征图中获得 $\pi$ 对相应边界点坐标，顺时针连接这些边界点就可以获得一个完整的多边形。论文中提到，关于多边形重建的细节可以在 $S A S T$ 这篇论文中获得。和基于CTC的CRNN识别框架相比，PG-CTC可以处理图像中任意形状的多文本实例，其实就是对CTC的应用进行了扩展。
（论文中没有详细介绍 $CTC\_decoder$ 的具体实现，所以只能后面阅读源码来扩充了）。

3.2 网络架构（Network Architecture)

出于计算资源的考虑，论文提出了2个版本的PGNet,即PGNet-A(PGNet-Accuracy), PGNet-E(PGNet-Efficient)。这两个版本的区别就在于backbone网络不同， PGNet-A使用ResNet-50特征提取网络， PGNet-E使用EfficientNet-B0特征提取网络。输出的特征图 $F_{visual}$ 宽度和高度为输入图像的 $1 / 4$ ，采用FPN方式融合不同层的特征。TCL和其它三个特征图通过并行方式预测，对TCL, TDO, TBO, TCC特征图分别采用采用 $1\times1$ 卷积层，输出通道为 ${1,2,4,37\}$ ，如图Fig.3所示。

3.3 标签生成（Label Generation)

任意形状的文本标签生成如图Fig.4所示。TCL特征图对文本区域分割结果进行向内收缩得到。TBO特征图表示为TCL每一个像素和相应的文本区域上、下边界点的偏移量，因此在推理阶段，TBO可以用来确定文本区域的边界。生成TCL和TBO特征图沿用SAST论文中的方法，详细过程参考这一论文。受人类阅读文本方式（沿着文本中心线从一个字符到下一个字符）的启发，TDO特征图可以用来恢复场景文本的阅读顺序，对文本检测和识别都有益，特别是场景文本具有非常规的文本方向。TDO特征图表示了TCL特征图中每一像素点到下一个阅读位置的偏移向量。对于四边形的标注，TDO偏移向量的方向为从左边缘的中心点到右边缘中心点，数量值（magnitude)为文本区域应用字符数来归一化后的长度。如果多边形标注的定点数超过4个，那么可将其视为多个四边形连接的结果，TBO特征图和TDO特征图可以按照上面的方法一个一个产生。
（Fig.4中就是多个四边形连接组成的一个文本区域，对每个四边形区域分别进行TBO和TDO计算，就可以得到文本区域的TBO和TDO结果）

3.4 训练对象（Training Objectives)

PGNet训练阶段就是对TCL, TBO, TDO, TCC这四类特征图进行学习的过程，所以这是一个多任务学习，损失函数计算也是对这四类特征图进行，公式如下：

这里 $L$ 表示损失计算结果。TCL损失应用 $Dice\ loss$ ， TBO和TDO损失应用 $Smooth\ L_{1}$ ， TCC损失计算则采用论文提出的 $P G - C T C$ 。这里损失权重根据经验取值： $\lambda_{1}=1.0 ,\lambda_{2}=1.0,\lambda_{3}=1.0,\lambda_{4}=5.0$ 。

3.5 图强化模块（Graph Refinement Module)

论文提出GRM通过引入单词级语义上下文和视觉上下文信息来提升端到端识别的性能。
论文为点序列 $\pi$ 构建了视觉推理图和语义推理图（序列中的点可视为图（graph)中的节点)，论文中采用的图结构和已有的图卷积层（graph convolution layer)相同。该GRM将 $F_{visual}$ 和TCC 特征图作为输入。 $F_{visual}$ 为FPN网络的输出，如图Fig.3所示。对一个点序列 $\pi=\{p_{1}, p_{2}, ...,p_{N}\}$ ，邻接矩阵定义如下：

这里， $D$ 表示 $p_{i},p_{j}$ 间的 $L 2$ 距离，每一个节点（node)都是自连接的。GRM的结构如图Fig.5所示，GCN层括号中的两个数字表示当前层的输入与输出。

由Fig.5可知，GRM主要包括两个图结构，语义推理图和视觉推理图。
在语义推理图中，应用PG即对TCC和点序列应用点聚集操作得到 $F_{s}$ ，然后以embed方法将其转变为 $X_{s}$ ，形状是 $N\times256$ 。紧接着就是三个图层（graph layer)，输入 $X_{s}$ ，输出 $Y_{s}$ ，形状为 $N\times64$ 。
在视觉推理图中，同样应用PG操作对 $F_{visual}$ 和点序列应用点聚集操作得到 $F_{v}$ ，以卷积方法转换为 $X_{v}$ ，其形状为 $N\times256$ 。使用和语义推理图相似的图结构得到视觉推理输出 $Y_{v}$ ,其形状为 $N\times64$ 。
最后，拼接 $Y_{v},Y_{s}$ ，将其视为分类问题应用几个全连接层来产生强化的概率序列，这里的GRM也是通过CTC损失函数来优化的。这里有些值得关注的点，一个就是论文将相对粗糙的识别序列填充为相同长度，分批进行有效训练，最大长度为 $64$ 。

（这一小节主要对图Fig.5所示的图强化模块进行结构说明，但是没有详细阐述为什么能够提高识别结果，可能要学习下GCN-Graph Convolutional Network才能有所领悟）

4 实验（Experiments）

这一章节主要介绍了实验的过程与实验的结果，这里就不细说了，大家如果感兴趣可以自行阅读，这里就简单粘贴下实验结果。

总结

到这里，论文就算阅读完成了，但是说实话，对于新手如果想要搞懂论文内容，有很多东西要学习，比如SAST论文， GCN相关论文，很多依赖的技术都是一笔概括，还有就是论文中只对英文进行训练，不知道对中文的支持情况如何。很多论文结果也只是针对论文应用的数据集，这是现在深度学习中存在的问题，当然这只是个人理解了。总的来说，读过论文也只是了解到PGNet用到了哪些技术，至于为什么会有这种提升，感觉不是很理解，具体的实现细节只能到源码中学习了，这也是接下来的工作了。

本文只是个人对论文的一些阅读记录，能力有限，如有错误，敬请原谅。

Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
【DuodooTEKr】基于Python+OCR+DeepSeek的英国购物小票识别系统开发实战邹工拆解甲方需求风吟九宵 Odoo18开源 Duodoo开源人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月11日本方案从甲方信息化负责人视角，分析梳理现状，并给出代码开发案例。一、行业现状与痛点分析1.英国零售业数字化现状根据英国零售协会（BRC）2023年度报告显示：英国年均纸质小票签发量达78亿张87%的企业仍采用人工录入方式处理小票数据零售业每年因小票管理产生的直接成本超12亿英镑2.传统小票管理痛点数据孤岛问题：门店POS系统、财务系
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
ROS2基础——Linux A_lvvx ROS2 linux ROS2
Ctrl+Alt+T:打开一个新终端1.查看终端目录命令$pwd#查看终端当前目录---/home/lvvx2.切换终端目录到根目录$cd/#从当前进入根目录$pwd---/3.查看当前目录下文件$ls#查看当前目录下文件---bindevhomeliblib64lost+foundmntprocrunsnapsysusrbootectinitlib32libx32mediaoptrootsbin
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
《探秘人工智能与鸿蒙系统集成开发的硬件基石》程序猿阿伟人工智能 harmonyos 华为
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
RV1126笔记三十七：PaddleOCR检测模型训练殷忆枫 RV1126项目实战笔记
若该文为原创文章，转载请注明原文出处。PaddleOCR检测模型训练及验证测试1、准备数据集在PaddleOCR目录下新建文件夹：train_data,这个文件夹用于存放数据集的。使用的是网上大佬提供的车牌识别数据集，下载后，解压到train_data目录下。可以自己网上找，了可以找我要数据集，或自己标注数据集。2、配置文件在PaddleOCR主目录下：configs/det/ch_ppocr_v
安装cpu版本的paddleocr NO1212 python
1.CPU版的PaddlePaddlepython-mpipinstallpaddlepaddle==2.6.1-ihttps://mirror.baidu.com/pypi/simple2、验证安装安装完成后您可以使用python进入python解释器，输入importpaddle，再输入paddle.utils.run_check()如果出现PaddlePaddleisinstalledsuc
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str