javastart

一文读懂CRNN+CTC文字识别

原文： https://zhuanlan.zhihu.com/p/43534801 推荐,是由于一些图片复制失败

文字识别也是图像领域一个常见问题。然而，对于自然场景图像，首先要定位图像中的文字位置，然后才能进行识别。

所以一般来说，从自然场景图片中进行文字识别，需要包括2个步骤：

文字检测：解决的问题是哪里有文字，文字的范围有多少
文字识别：对定位好的文字区域进行识别，主要解决的问题是每个文字是什么，将图像中的文字区域进转化为字符信息。

图1 文字识别的步骤

对于文字检测不了解的读者，请参考本专栏文章：

场景文字检测—CTPN原理与实现zhuanlan.zhihu.com

本文的重点是如何对已经定位好的文字区域图片进行识别。

最简单的文字识别基于单字符定位+分类，即定位单个文字区域后直接进行分类。

图2 文字检测定位文字图像区域

基于RNN文字识别算法主要有两个框架：

图3 基于RNN文字识别2种基本算法框架

CNN+RNN+CTC(CRNN+CTC)
CNN+Seq2Seq+Attention

本文主要介绍第一种框架CRNN+CTC，对应代码（Tensorflow实现）如下，本文介绍的CRNN网络结构都基于此代码。另外该代码已经支持不定英文识别。

bai-shang/crnn_ctc_ocr_tfgithub.com

CRNN基本网络结构

图4 CRNN网络结构（此图按照本文给出的github实现代码画的）

整个CRNN网络可以分为三个部分：

假设输入图像大小为，注意提及图像都是形式。

Convlutional Layers

这里的卷积层就是一个普通的CNN网络，用于提取输入图像的Convolutional feature maps，即将大小为的图像转换为大小的卷积特征矩阵，网络细节请参考本文给出的实现代码。

Recurrent Layers

这里的循环网络层是一个深层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征。对RNN不了解的读者，建议参考：

完全解析RNN, Seq2Seq, Attention注意力机制zhuanlan.zhihu.com

所谓深层RNN网络，是指超过两层的RNN网络。对于单层双向RNN网络，结构如下：

图5 单层双向RNN网络

而对于深层双向RNN网络，主要有2种不同的实现：

tf.nn.bidirectional_dynamic_rnn

图6 深层双向RNN网络

tf.contrib.rnn.stack_bidirectional_dynamic_rnn

图7 stack形深层双向RNN网络

在CRNN中显然使用了第二种stack形深层双向结构。

由于CNN输出的Feature map是大小，所以对于RNN最大时间长度（即有25个时间输入，每个输入列向量有）。

Transcription Layers

将RNN输出做softmax后，为字符输出。

关于代码中输入图片大小的解释：

在本文给出的实现中，为了将特征输入到Recurrent Layers，做如下处理：

首先会将图像在固定长宽比的情况下缩放到大小（代表任意宽度）
然后经过CNN后变为
针对LSTM设置，即可将特征输入LSTM。

所以在处理输入图像的时候，建议在保持长宽比的情况下将高缩放到，这样能够尽量不破坏图像中的文本细节（当然也可以将输入图像缩放到固定宽度，但是这样由于破坏文本的形状，肯定会造成性能下降）。

考虑训练Recurrent Layers时的一个问题：

图8 感受野与RNN标签的关系

对于Recurrent Layers，如果使用常见的Softmax cross-entropy loss，则每一列输出都需要对应一个字符元素。那么训练时候每张样本图片都需要标记出每个字符在图片中的位置，再通过CNN感受野对齐到Feature map的每一列获取该列输出对应的Label才能进行训练，如图9。

在实际情况中，标记这种对齐样本非常困难（除了标记字符，还要标记每个字符的位置），工作量非常大。另外，由于每张样本的字符数量不同，字体样式不同，字体大小不同，导致每列输出并不一定能与每个字符一一对应。

当然这种问题同样存在于语音识别领域。例如有人说话快，有人说话慢，那么如何进行语音帧对齐，是一直以来困扰语音识别的巨大难题。

图9

所以CTC提出一种对不需要对齐的Loss计算方法，用于训练网络，被广泛应用于文本行识别和语音识别中。

Connectionist Temporal Classification(CTC)详解

在分析过程中尽量保持和原文符号一致。

Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networksftp.idsia.ch

整个CRNN的流程如图11。先通过CNN提取文本图片的Feature map，然后将每一个channel作为的时间序列输入到LSTM中。

图10 CRNN+CTC框架

为了说明问题，我们定义：

CNN Feature map

Feature map的每一列作为一个时间片输入到LSTM中。设Feature map大小为（图11中，）。下文中的时间序列都从开始，即。

定义为：

其中每一列为：

LSTM

LSTM的每一个时间片后接softmax，输出是一个后验概率矩阵，定义为：

其中，的每一列为：

其中代表需要识别的字符集合长度。由于是概率，所以服从概率假设：

对每一列进行操作，即可获得每一列输出字符的类别。

那么LSTM可以表示为：

其中代表LSTM的参数。LSTM在输入和输出间做了如下变换：

图11

空白blank符号

如果要进行的26个英文字符识别，考虑到有的位置没有字符，定义插入blank的字符集合：

其中blank表示当前列对应的图像位置没有字符（下文以符号表示blank）。

关于变换

定义变换如下（原文是大写的，知乎没这个符号）：

其中是上述加入blank的长度为的字符集合，经过变换后得到原始，显然对于的最大长度有。

举例说明，当时：

对于字符间有blank符号的则不合并：

当获得LSTM输出后进行变换，即可获得输出结果。显然变换不是单对单映射，例如对于不同的都可获得英文单词state。同时成立。

那么CTC怎么做？

对于LSTM给定输入的情况下，输出为的概率为：

其中代表所有经过变换后是的路径。

其中，对于任意一条路径有：

注意这里的中的，下标表示路径的每一个时刻；而上面的下标表示不同的路径。两个下标含义不同注意区分。

*注意上式 成立有条件，此项不做进一步讨论，有兴趣的读者请自行研究。

如对于的路径来说：

实际情况中一般手工设置，所以有非常多条路径，即非常大，无法逐条求和直接计算。所以需要一种快速计算方法。

CTC的训练目标

图14

CTC的训练过程，本质上是通过梯度调整LSTM的参数，使得对于输入样本为时使得取得最大。

例如下面图14的训练样本，目标都是使得时的输出变大。

图14

CTC借用了HMM的“向前—向后”(forward-backward)算法来计算

要计算，由于有blank的存在，定义路径为在路径每两个元素以及头尾插入blank。那么对于任意的都有（其中）。如：

显然，其中是路径的最大长度，如上述例子中。

定义所有经变换后结果是且在时刻结果为（记为）的路径集合为。

求导：

注意上式中第二项与无关，所以：

而上述就是恰好与概率相关的路径，即时刻都经过 ( )。

举例说明，还是看上面的例子（这里的下标代表不同的路径）：

图15

蓝色路径：

红色路径：

还有没有画出来。

而在时恰好都经过（此处下标代表路径的时刻的字符）。所有类似于经过变换后结果是且在的路径集合表示为。

观察。记蓝色为，红色路径为，可以表示：

那么可以表示为：

计算：

为了观察规律，单独计算。

不妨令：

那么可以表示为：

推广一下，所有经过变换为且的路径（即）可以写成如下形式：

进一步推广，所有经过变换为且的路径（即）也都可以写作：

所以，定义前向递推概率和 ：

对于一个长度为的路径，其中代表该路径前个字符，代表后个字符。

其中表示前个字符经过变换为的的前半段子路径。代表了时刻经过的路径概率中概率之和，即前向递推概率和。

由于当时路径只能从blank或开始，所以有如下性质：

如上面的例子中 , , 。对于所有路径，当时只能从blank和字符开始。

图16

图16是时经过压缩路径后能够变为的所有路径。观察图15会发现对于有如下递推关系：

也就是说，如果时刻是字符，那么时刻只可能是字符三选一，否则经过变换后无法压缩成。

那么更一般的：

同理，定义反向递推概率和 ：

其中表示后个字符经过变换为的的后半段子路径。代表了时刻经过的路径概率中概率之和，即反向递推概率和。

由于当时路径只能以blank或结束，所以有如下性质：

如上面的例子中 , , , 。对于所有路径，当时只能以（blank字符）或字符结束。

观察图15会发现对于有如下递推关系

与同理，对于有如下递推关系：

那么forward和backward相乘有：

或：

注意，可以通过图16的关系对应，如，。

对比 :

可以得到与forward和backward递推公式之间的关系：

* 为什么有上式 成立呢？

回到图15，为了方便分析，假设只有共4条在时刻经过字符且变换为的路径，即 :

那么此时（注意虽然表示路径用加法，但是由于和两件独立事情同时发生，所以路径的概率是乘法）：

则有：

训练CTC

对于LSTM，有训练集合，其中是图片经过CNN计算获得的Feature map，是图片对应的OCR字符label（label里面没有blank字符）。

现在我们要做的事情就是：通过梯度调整LSTM的参数，使得对于输入样本为时有取得最大。所以如何计算梯度才是核心。

单独来看CTC输入（即LSTM输出）矩阵中的某一个值（注意与含义相同，都是在时的概率）：

上式中的是与无关的数值，任何时候都可以通过递推快速计算，那么即可快速计算梯度，之后梯度上升算法你懂的。

CTC编程接口

在Tensorflow中官方实现了CTC接口：

tf.nn.ctc_loss(

labels,

inputs,

sequence_length,

preprocess_collapse_repeated=False,

ctc_merge_repeated=True,

ignore_longer_outputs_than_inputs=False,

time_major=True

)

在Pytorch中需要使用针对框架编译的warp-ctc：https://github.com/SeanNaren/warp-ctc

CTC总结

CTC是一种Loss计算方法，用CTC代替Softmax Loss，训练样本无需对齐。CTC特点：

引入blank字符，解决有些位置没有字符的问题
通过递推，快速计算梯度

看到这里你也应该大致了解MFCC+CTC在语音识别中的应用了（图17来源）。

图17 MFCC+CTC在语音识别中的应用

CRNN+CTC总结

这篇文章的核心，就是将CNN/LSTM/CTC三种方法结合：

首先CNN提取图像卷积特征
然后LSTM进一步提取图像卷积特征中的序列特征
最后引入CTC解决训练时字符无法对齐的问题

即提供了一种end2end文字图片识别算法，也算是方向的简单入门。

特别说明

一般情况下对一张图像中的文字进行识别需要以下步骤

定位文稿中的图片，表格，文字区域，区分文字段落（版面分析）
进行文本行识别（识别）
使用NLP相关算法对文字识别结果进行矫正（后处理）

本文介绍的CRNN框架只是步骤2的一种识别算法，其他非本文内容。CTC你学会(fei)了么？

【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
OpenVINO™2025部署PaddleOCR模型 OpenVINO 中文社区经验分享
PaddleOCR模型下载OpenVINO™2025支持直接加载paddle的模型。所以可以直接先从官网直接下载PaddleOCRv5.0的模型：文本检测模型下载地址#DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer
转换PP-OCRv5模型为OpenVINO格式的详细指南 mingo_敏 OpenVINO openvino 人工智能
转换PP-OCRv5模型为OpenVINO格式的详细指南一、引言PP-OCRv5是百度飞桨推出的高性能OCR（光学字符识别）模型，在文本检测和识别任务中表现出色。整体识别精度相比上一代提升13个百分点。OpenVINO则是英特尔推出的开源深度学习推理框架，能显著优化模型在英特尔硬件上的推理性能。本文将详细介绍如何将PP-OCRv5模型转换为OpenVINO格式（.xml和.bin文件），并实现高效
PaddleOCR检测模型微调实战：从数据准备到生产一休哥助手 ocr
一、检测模型微调的核心价值1.1预训练模型的局限性场景通用模型表现微调后提升典型案例特殊字体识别62%89%古籍文字识别小目标文本检测55%82%工业零件编号密集文本场景71%93%财务报表解析倾斜文本检测68%91%街景门牌识别1.2PaddleOCR检测模型优势模型丰富性：支持DB、EAST、SAST等主流算法训练效率高：混合精度训练加速40%部署便捷性：支持ONNX/TensorRT等格式导
使用 java-onnx 部署 PaddleOCR-v3 文本检测 0x13 深度学习/机器学习/强化学习 ocr paddlepaddle 文本检测人工智能计算机视觉
文本检测：文本检测(TextDetection)是计算机视觉领域的经典问题，该技术旨在寻求一种可靠方法作为文本识别技术的前端，是目标检测(ObjectDetection)领域的一个子问题。模型推理输出文本区域需要经过二值化之后使用opencv查找轮廓，然后获取最小外接矩形并扩展得到最终的文本区域，后续需要矩形旋转、投影变换等操作作为文本识别的输入。文本识别可以用crnn等各种模型。paddlepa
大模型安全相关研究 CSPhD-winston-杨帆 LLMs-安全论文阅读论文翻译人工智能
文章目录1AI生成文本规避检测研究2AI生成文本检测(AIGTD)研究论文综述3安全4事实核查1AI生成文本规避检测研究综述id平台讲解论文名12023-arxiv讲解TowardsPossibilities&ImpossibilitiesofAI-generatedTextDetection:ASurvey22024JCRQ1区讲解SurveyonAI-GeneratedPlagiarismDe
基于Python开发的海关报表自动识别系统的示例代码 go5463158465 python 深度学习算法 python 开发语言
以下是一个基于Python开发的海关报表自动识别系统的示例代码，该系统包含输入报表、预处理、分类识别、文本检测和生成报表的基本功能。本示例主要使用了pytesseract进行文本识别，opencv-python进行图像预处理，同时简单模拟了报表分类的逻辑。环境准备在运行代码之前，需要安装以下库：pipinstallopencv-pythonpytesseractpandas此外，还需要安装Tess
PaddleOCR超大分辨率文本检测代码教程 LEILEI18A Python 深度学习 paddle paddleocr ppocr 超大分辨率文本检测
PaddleOCR超大分辨率文本检测代码教程目录1.前提2.PaddleOCR部署（win10下）3.解决思路和代码1.前提这是我提的issue：https://github.com/PaddlePaddle/PaddleOCR/issues/11888很多问题可以看：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/do
京东数据分析岗面试题目整理 Data地平线
1，怎么做恶意刷单检验分类问题用机器学习方法建模解决，特征有：1）商家特征：商家历史销量、信用、产品类别、发货快递公司等2）用户行为特征：用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号3）环境特征（主要是避免机器刷单）：地区、ip、手机型号等4）异常检测：ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等5）评论文本检测：刷单的评论文本可能套路较为一致，计算与已标注评
DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒我爱计算机视觉计算机视觉深度学习人工智能
关注公众号，发现CV技术之美针对场景文本检测任务，近期基于DEtectionTRansformer(DETR)框架预测控制点的研究工作较为活跃。在基于DETR的检测器中，query的构建方式至关重要，现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率以及性能。除此之外，在如何监督模型方面，之前工作中使用的点标签形式影射了人的阅读顺序，本文观察到这实际上会降低检测器的鲁棒性。为解决以上问题，本
OCR-paddleocr 青霄检测识别 paddleocr 检测识别
PaddleOCR分为Detection（文本检测）、Directionclassifier（方向分类器）和Recognition（文本识别）三部分，因此需要三个模型。一、介绍PaddleOCR是一款超轻量、中英文识别模型目标是打造丰富、领先、实用的文本识别模型/工具库3.5M实用超轻量OCR系统，支持在服务器，移动，嵌入式和IoT设备之间进行培训和部署同时支持中英文识别；支持倾斜、竖排等多种方向
【读点论文】SPTS v2:Single-Point Scene Text Spotting，通过改变标注方式获得更好的模型泛化能力，相比于SPTS提高了模型训练合推理速度羞儿论文笔记 ocr
SPTSv2:Single-PointSceneTextSpottingAbstract端到端场景文本识别由于文本检测和识别之间的内在协同作用而取得了重大进展。以往的方法通常以手工标注为前提，如水平矩形、旋转矩形、四边形、多边形等，这比单点标注要昂贵得多。我们的新框架SPTSv2允许我们使用单点注释训练高性能的文本识别模型。SPTSv2保留了具有实例分配解码器(IAD)的自回归Transforme
【读点论文】SPTS Single-Point Text Spotting 羞儿论文笔记 OCR 单点标注
SPTSSingle-PointTextSpottingABSTRACT现有的场景文本识别(即，端到端文本检测和识别)方法依赖于昂贵的边界框注释(例如，文本行，词级或字符级边界框)。我们首次证明，训练场景文本识别模型可以通过对每个实例的单点进行极低成本的标注来实现。我们提出了一种端到端的场景文本识别方法，将场景文本识别作为一个序列预测任务来处理。给定图像作为输入，我们将所需的检测和识别结果表述为离
mmocr 安装及快速运行 TYUT_xiaoming mmocr ocr
MMOCR是一个基于PyTorch和MMDetection的开源工具箱，支持众多OCR相关的模型，涵盖了文本检测、文本识别以及关键信息提取等多个主要方向。它还支持了大多数流行的学术数据集，并提供了许多实用工具帮助用户对数据集和模型进行多方面的探索和调试，助力优质模型的产出和落地。它具有以下特点：全流程，多模型：支持了全流程的OCR任务，包括文本检测、文本识别及关键信息提取的各种最新模型。模块化设计
FastDeploy项目简介，使用其进行（图像分类、目标检测、语义分割、文本检测|orc部署）万里鹏程转瞬至深度学习python库使用目标检测深度学习模型部署
FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具，支持云边端部署。提供超过160+Text，Vision，Speech和跨模态模型开箱即用的部署体验，并实现端到端的推理性能优化。包括物体检测、字符识别（OCR）、人脸、人像扣图、多目标跟踪系统、NLP、StableDiffusion文图生成、TTS等几十种任务场景，满足开发者多场景、多硬件、多平台的产业部署需求。1、FastD
护照关键信息识别与提取彧侠
综述最近工作中进行了OCR文本检测与识别开发，文本检测/识别顾名思义就是通过一张图片或图像数据提取其中的文本信息（图像->文字）。但是实际应用中涉及到的使用场景有很多，有些场景下如果只是简单的输出图像中的文字并不能很好的解决实际问题，仍然需要人为的挑选与整理这些文本信息，费时费力。如果能通过程序代码实现对这些混乱的文本信息进行整理与输出将起到事半功倍的效果。下面我就以中国大陆护照识别为例，来讲解如
OpenCV 新版滴 4.5.1 发布啦！ AAI机器之心 opencv 人工智能计算机视觉机器学习 dnn KNN cnn
发布亮点：OpenCVGithub项目终于突破50000stars！新的里程碑~这次发布的特性包括：集成更多的GSoC2020项目的结果，包括：开发了OpenCV.jsDNN模块，以方便再网页中使用，并提供了相关教程。图像分类目标检测风格迁移语义分割姿态估计OpenCV.jsWASMSIMD优化2.0，网页端调用OpenCV更快了新增文本检测和识别高级APISIFT算法优化，主要是16位整型高斯滤
【iOS】——基于Vision Kit框架实现图片文字识别不会敲代码的VanGogh ios objective-c 学习 apple vision pro
文章目录前言一、文本识别的分类二、实现步骤1.导入VisionKit框架2.创建请求处理器3.在请求处理器中设置文字识别功能4.将图片添加到请求处理器中5.发起文字识别请求6.处理识别结果三、运行结果测试1.纯英文环境2.中英文混合环境前言根据苹果的官方文档，Vision可以执行面部检测、文本检测、条形码识别、图像注册和一般功能跟踪。Vision还允许将自定义CoreML模型用于分类或对象检测等任
文本检测最近文章检索（2）葛葛葛立鹏啊文献
期刊1）RotatedcascadeR-CNN:Ashaperobustdetectorwithcoordinateregression旋转叶栅R-CNN：具有坐标回归的形状鲁棒检测器YixingZhu;ChixiangMa;JunDu;NationalEngineeringLaboratoryforSpeechandLanguageInformationProcessingUniversityo
【Pytorch】学习记录分享13——OCR(Optical Character Recognition,光学字符识别) 大江东去浪淘尽千古风流人物 DeepLearning 学习 ocr 百度云
@[TOC](OCR(OpticalCharacterRecognition,光学字符识别))1.OCR资源汇总OCR(OpticalCharacterRecognition,光学字符识别)指提取图像中的文字信息，通常包括文本检测和文本识别。文字检测：将图片中的文字区域位置检测出来（如图1(b)所示）；文字识别：对文字区域中的文字进行识别（如图1©所示）。项目实例代码,评论点击0013获取项目代码
二十分钟入门计算机视觉开源神器——课堂笔记敲键盘的喵桑 OpenMMLab实战营笔记深度学习人工智能
1，统一的深度学习框架，2.02，现状3，代表算法库（1）目标检测MMDetection任务支持：目标家呢，实力分割，全景分割覆盖广泛算法丰富使用方便（2）MMYOLO（3）MMOCR文本检测，文本识别，关键信息提取（4）MMDetection3D(5)MMRotate(6)MMSegmentation(7)MMPretrain图像分类+预训练+多模态算法库(8)MMPose姿态估计（关键点检测）
小白综述：深度学习 OCR 图片文字识别 ctrl A_ctrl C_ctrl V #OCR 图片文字识别深度学习 ocr 人工智能
文章目录1.OCR算法流程1.1传统OCR方法1.2深度学习OCR方法1.2.1two-stage方法：文字检测+识别1.2.2端到端方法2.文本检测算法3.文本识别算法3.1基于分割的单字符识别方法3.2基于序列标注的文本行识别方法1.OCR算法流程OCR(OpticalCharacterRecognition,光学字符识别)是指提取图像中的文字信息。1.1传统OCR方法传统OCR方法一般包含预
cnstd使用效果测试回到工作狂状态 cnocr cnstd
使用参考：https://github.com/breezedeus/CnSTD/tree/master原理参考：https://cnocr.readthedocs.io/zh/latest/intro-cnstd-cnocr.pdf模型：结论：经过测试，长文本检测效果不错，短文本可能角度不对fromcnstdimportCnStdimportcv2fromcnocrimportCnOcr#文字检
paddlehub 文本检测使用回到工作狂状态 paddlehub
PaddleHub负责模型的管理、获取和预训练模型的使用。参考：https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/image/text_recognition/chinese_text_detection_db_serverimportpaddlehubashubimportcv2#fromutilsimportcv_sh
CharNet:卷积字符网络 Alpha-Go 文本检测与识别深度学习
卷积字符网络论文与开源代码导论卷积字符网络概览字符分支文本检测分支迭代字符检测实验，结果与比较迭代字符检测算法文字检测的结果端到端文字识别结果结论论文与开源代码开源代码：https://github.com/MalongTech/research-charnet论文：https://arxiv.org/abs/1910.07954v1在这里非常感谢作者“码隆科技”，让我有机会能这么轻松的看完一篇论
基于DBNetpp的文本检测的仪表盘读数识别羁旅少年 ocr 深度学习
一个不知名大学生，江湖人称菜狗originalauthor:JackyLiEmail:[email protected]：2023.12.31Lastedited:2023.12.31祝自己生日快乐啦！！！！目录算法设计（1）基于YOLOv5s的仪表检测（2）基于YOLOv8x-pose的指针和刻度关键点检测（3）基于DBNetpp的文本检测（4）基于SATRN模型
DBNet文本检测网络 (FPN、batch normalization、Transpose conv) shuyeah DBNet网络深度学习文本检测
DBNet文本检测网络概述DBNet论文地址：https://arxiv.org/pdf/1911.08947.pdfDBNet是一种基于分割的文本检测网络，使用分割网络提供自适应的thresh用于二值化。原始二值化方法和DBNet中的动态阈值传统的基于分割的检测方法，对于分割后的特征层，使用直接二值化，生成检测结果。直接二值化的方法不可微分，不能参与到网络模型的训练中。DBNet增加了thres
GPT Zero 是什么？程序员泥瓦匠 java
fromhttps://openaigptguide.com/gptzero/在人工智能技术飞速发展的今天，人们对于文字内容的准确性和可信度要求越来越高。例如在学术研究领域，防止抄袭和造假是非常重要的。而对于普通用户而言，辨别哪些内容是由人工智能生成的，哪些内容是由人类编写的，也逐渐成为一个亟待解决的问题。GPTZero不仅能提供准确的文本检测结果，还具有简洁直观的用户界面。无论是iOS还是And
LOMO-Paper简析 ZerOo0
LOMO是百度提出的文本检测深度网络模型，用以解决目前主流模型（如EAST）的感受野对长文本覆盖不足以及对弯曲或波浪形文本检测能力不足的问题。LookMoreThanOnce:AnAccurateDetectorforTextofArbitraryShapes原文链接1.简介LOMO(LOokMorethanOnce)网络是百度提出的文本检测深度模型，用以解决目前主流模型（如EAST）的感受野对长
自然场景下的文本检测和识别 EAST text detector and recognition gaoshine
自然场景下的文本检测和识别EASTtextdetectorandrecognition最近在做巡检机器人和仪表识别算法,巡检机器人拍摄的照片除了指针仪表和状态灯以外,还有一部分是数字显示的仪表,这样对仪表的数值的识别就需要后台代码具备检测文本和识别的功能了.另外,一些项目中也有对移动的车厢或者罐子上的编号做识别处理,这样一套算法就可以搞定这些问题了.仪表面板铁罐编号1铁罐编号21.EASTtext
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

一文读懂CRNN+CTC文字识别

你可能感兴趣的:(文本检测)