GoAI

OCR文字识别经典论文详解

OCR文字识别综述合集：

1️⃣OCR系列第一章：OCR文字识别技术总结（一）
2️⃣OCR系列第二章：OCR文字识别技术总结（二）
3️⃣OCR系列第三章：OCR文字识别技术总结（三）
4️⃣OCR系列第四章：OCR文字识别技术总结（四）
5️⃣OCR系列第五章：OCR文字识别技术总结（五）

OCR文字识别领域论文详解系列：

1️⃣CRNN：CRNN文字识别

2️⃣ASTER：ASTER文本识别详解

导读：本篇将介绍文字识别经典论文，内容包括文字检测、文字识别、端到端识别等方法，具体将分别对论文算法简介、思路、代码等几个部分展开介绍。目前各部分只举例经典论文，算法没有全部写完，后续会将在此部分基础上更新更多论文综述及代码实战部分。

➡️OCR经典论文介绍

一、文本识别

1.CRNN （重要）

最常用的识别网络，任意长度输入，模型小，参数少

论文链接 : https://arxiv.org/pdf/1507.05717.pdf

期刊日期 TPAMI 2017

论文名称：

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》

CRNN详解及实战参考我的这两篇文章：

CRNN文字识别_GoAI的博客-CSDN博客_crnn

基于CRNN的文本字符交易验证码识别--Paddle实战

论文思路和方法：

1)问题范围：单词识别；

2)CNN层：使用标准CNN提取图像特征，利用Map-to-Sequence表示成特征向量；

3)RNN层：使用双向LSTM识别特征向量，得到每列特征的概率分布；

4)Transcription层：利用CTC和前向后向算法求解最优的label序列；

亮点和创新点：

1)端到端可训练（把CNN和RNN联合训练）；

2)任意长度的输入（图像宽度任意，单词长度任意）；

3)训练集无需有字符的标定；

4)带字典和不带字典的库（样本）都可以使用；

5)性能好，而且模型小（参数少）

2.Attention_OCR

该方法处理普通文本，不针对弯曲文本，后续方法都针对弯曲文本。

论文链接：https://arxiv.org/abs/1704.03549

代码：https://github.com/tensorflow/models

期刊日期 IEEE，2017

论文名称

《Attention-based Extraction of Structured Information from Street View Imagery》

描述

提出了一种神经网络模型-基于卷积神经网络，回归神经网络和一种新颖的注意机制-在具有挑战性的法国街道名称标志（FSNS）数据集上达到84.2％的准确率，明显优于先前的技术水平（Smith'）16），达到72.46％。此外，我们的新方法比以前的方法更简单，更通用。为了证明我们模型的一般性，我们证明它在从Google街景视图中衍生的更具挑战性的数据集上也表现良好，其目标是从商店前端提取商业名称。最后，我们研究了使用不同深度的CNN特征提取器产生的速度/准确度权衡。令人惊讶的是，我们发现更深层次并不总是更好（在准确性和速度方面）。我们生成的模型简单，准确，快速，可以在各种具有挑战性的真实文本提取问题上大规模使用。

3.ASTER (重要)

引入注意力机制，整合矫正和识别，改善大规则文字识别

ASTER结构图

论文链接：http://122.205.5.5:8071/UpLoadFiles/Papers/ASTER_PAMI18.pdf

代码： https://github.com/bgshih/aster

期刊日期 TPAMI 2018

论文名称

《An Attentional scene text recognizer with flexible rectification》

描述

场景文本识别的一个具有挑战性的方面是处理扭曲或不规则布局的文本。尤其是透视文字和曲线文字在自然场景中比较常见，难以识别。

在这项工作中，我们引入了 ASTER，这是一种端到端的神经网络模型，包括一个整流网络和一个识别网络。修正网络自适应地将输入图像转换为新图像，修正其中的文本。它由灵活的 Thin-Plate Spline 转换提供支持，该转换可处理各种文本不规则性，并在没有人工注释的情况下进行训练。

识别网络是一种注意力序列到序列模型，它直接从校正后的图像中预测字符序列。整个模型是端到端的训练，只需要图像和它们的真实文本。

通过大量实验，我们验证了整改的有效性，并展示了 ASTER 最先进的识别性能。此外，我们证明 ASTER 是端到端识别系统中的一个强大组件，因为它具有增强检测器的能力。

4.MORAN

加入了注意力机制的文本识别

期刊日期PR 2019

论文名称

《A Multi-Object Rectified Attention Network for Scene Text Recognition》

描述

MORAN分为两部分一个是对形变input image的校正网络MORN（multi-object rectification network）和对矫正后照片的识别网络ASRN（attention-based sequence network）。

除了整体架构，作者还强调了两种提升训练效果的方法，因为这个端到端的网络比较难训练。一个是fractional pickup method用于提升ASRN的训练效果，一个是curriculum learning用于训练MORAN这个端到端的网络。

论文链接：https://arxiv.org/abs/1901.03003

代码：https://github.com/Canjie-Luo/MORAN_v2

MORAN算法详解：

OCR–MORAN

5.RARE

RARE实现了对不规则文本的end-to-end的识别，算法包括两部分：

基于STN[2]的不规则文本区域的矫正：与STN不同的是，RARE在Localisation部分预测的并不是仿射变换矩阵，而是K个TPS（Thin Plate Spines）[3][4]的基准点，其中TPS基于样条（spines）的数据插值和平滑技术。
基于SRN的文字识别：SRN（Sequence Recognition Network）是基于Attention [5]的序列模型，包括有CNN和LSTM构成的编码（Encoder）模块和基于Attention和GRU的解码（Decoder）模块构成。

算法详解：

OCR之RARE

文本识别方法总结：

二、文本检测

1.CTPN

实现端到端检测，改进RPN

期刊日期 ECCV 2016

论文名称

《Detecting Text in Natural Image withConnectionist Text Proposal Network》

描述

我们提出了一种新颖的 Connectionist Text Proposal Network (CTPN)，可以准确定位自然图像中的文本行。CTPN 直接在卷积特征图中检测一系列精细文本提议中的文本行。我们开发了一种垂直锚点机制，可以联合预测每个固定宽度提议的位置和文本/非文本分数，从而显着提高定位精度。顺序提议由循环神经网络自然连接，循环神经网络无缝地合并到卷积网络中，从而形成端到端的可训练模型。这使得 CTPN 能够探索图像的丰富上下文信息，使其能够强大地检测极其模糊的文本。CTPN 在多尺度和多语言文本上可靠地工作，无需进一步的后处理，与以前需要多步后处理的自下而上的方法不同。它在 ICDAR 2013 和 2015 基准上实现了 0.88 和 0.61 F-measure，大大超过了最近的结果 [8, 35]。通过使用非常深的 VGG16 模型 [27]，CTPN 的计算效率为 0:14s/image。

论文链接 https://arxiv.org/abs/1609.03605

在线演示：http://textdet.com/

算法详解：

OCR之CTPN

2.EAST & AdvancedEAST

全卷积网络+非极大值抑制，缩短检测时间

期刊日期 CVPR 2017

论文名称

《EAST: An Efficient and Accurate Scene Text Detector 》

描述

以前的场景文本检测方法已经在各种基准测试中取得了有希望的性能。

然而，即使配备了深度神经网络模型，它们在处理具有挑战性的场景时通常也表现不佳，因为整体性能取决于管道中多个阶段和组件的相互作用。在这项工作中，我们提出了一个简单而强大的管道，可以在自然场景中进行快速准确的文本检测。

管道直接预测完整图像中任意方向和四边形形状的单词或文本行，使用单个神经网络消除不必要的中间步骤（例如，候选聚合和单词分区）。

我们管道的简单性允许集中精力设计损失函数和神经网络架构。在包括 ICDAR 2015、COCO-Text 和 MSRA-TD500 在内的标准数据集上的实验表明，所提出的算法在准确性和效率方面都明显优于最先进的方法。

在 ICDAR 2015 数据集上，所提出的算法在 720p 分辨率下以 13.2fps 获得了 0.7820 的 F-score。

论文链接 https://arxiv.org/pdf/1704.03155.pdf

算法详解：

场景文字检测之EAST

3.PSENet

多个尺度预测结果，准确检测区分临近文本行

期刊日期 CVPR 2019

论文名称

《PSENet: Shape Robust Text Detection with Progressive Scale Expansion Network 》

描述

文章认为其提出的方法能避免现有bounding box回归的方法产生的对弯曲文字的检测不准确的缺点（如下图b所示），也能避免现有的通过分割方法产生的对于文字紧靠的情况分割效果不好的缺点（如下图c所示）。

该文章的网络框架是从FPN中受到启发采用了U形的网络框架，先通过将网络提取出的特征进行融合然后利用分割的方式将提取出的特征进行像素的分类，最后利用像素的分类结果通过一些后处理得到文本检测结果。

论文链接：https://arxiv.org/pdf/1903.12473.pdf

代码：https://github.com/whai362/PSENet

4.PANNET

号称PSENet的二代

期刊日期 ICCV 2019

论文名称

《Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network》

描述

有低计算成本的分割部分和可学习的后处理。分割分割部分由特征金字塔增强模块（FPEM）和特征融合模块（FFM）组成。FPEM是可级联的U形模块，可以引入多级信息来指导更好的分割。

FFM可以将不同深度的FPEM提供的特征收集到最终特征中进行分割。可学习的后处理是通过像素聚合（PA）实施的，该算法可以通过预测的相似度矢量精确地聚合文本像素。

论文链接

https://arxiv.org/pdf/1908.05900.pdf

代码

https://github.com/whai362/pan_pp.pytorch

5.DBNet

将二值化融入网络，速度极快

期刊日期 AAAI 2020

论文名称

《Real-time Scene Text Detection with Differentiable Binarization》

描述

由于分割网络的结果可以准确描述诸如扭曲文本的场景，因而基于分割的自然场景文本检测方法变得流行起来。基于分割的方法其中关键的步骤是其后处理部分，这步中将分割的结果转换为文本框或是文本区域。

这篇文章的文本检测方法也是基于分割的，但是通过提出Differenttiable Binarization module（DB module）来简化分割后处理步骤（加了一个边的预测），并且可以设定自适应阈值来提升网络性能。文章的方法在现有5个数据上在检测精度与速度上均表现为state-of-art。

在换用轻量级的backbone（ResNet-18）之后可以将检测帧率提升到62FPS，其与其它一些文本检测算法的性能与速率关系见图1所示。

论文链接： https://arxiv.org/pdf/1911.08947.pdf

代码：https://github.com/MhLiao/DB

算法详解：

DBNet论文详解

6.RRPN

论文：Arbitrary-Oriented Scene Text Detection via Rotation Proposals

在场景文字检测中一个最常见的问题便是倾斜文本的检测，现在基于候选区域的场景文字检测方法，例如CTPN[2]，DeepText[3]等，其检测框均是与坐标轴平行的矩形区域，其根本原因在于数据的标签采用了。另外一种方法是基于语义分割，例如HMCP[4]，EAST[5]等，但是基于分割算法的场景文字检测效率较低且并不擅长检测长序列文本。

文字检测算法总结

注：上述方法与图表部分不匹配，此部分后续将补充！

三、端到端文字识别

1.FOTS

识别检测端到端的网络，解决了角度文本端到端识别的问题

期刊日期 CVPR 2018

论文名称

《FOTS: Fast Oriented Text Spotting with a Unified Network》

描述

偶然场景文本识别被认为是文档分析社区中最困难和最有价值的挑战之一。大多数现有方法将文本检测和识别视为单独的任务。

在这项工作中，我们提出了一个统一的端到端可训练快速定向文本识别 (FOTS) 网络，用于同时检测和识别，在两个互补任务之间共享计算和视觉信息。特别地，引入了 RoIRotate 以在检测和识别之间共享卷积特征。

受益于卷积共享策略，我们的 FOTS 与基线文本检测网络相比计算开销很小，并且联合训练方法学习了更多的通用特征，使我们的方法比这些两阶段方法表现更好。

论文链接 https://arxiv.org/pdf/1801.01671.pdf

识别检测端到端的网络（工程应用场景较少）

2.ABCnet

ABCNet网络是一个端到端的场景文本检测识别网络。该网络首次通过参数化的贝塞尔曲线自适应拟合任意形状文本，其计算成本可忽略；其中的BezierAlign层可以准确地提取卷积特征使得识别精度显著提高。该网络由贝塞尔曲线检测分支、贝塞尔曲线Align和识别分支两个部分组成。但是该网络用合成数据进行训练在实际较复杂场中的识别效果不好。

端到端文字识别方法总结

通用检测算法总结

优秀文章推荐：

文字识别方法整理（2015~2019）

一文读懂CRNN+CTC文字识别

本文参考：

场景文字识别技术研究综述

此篇未完待续，后续继续更新！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
道阻且长，行则将至 sweet橘子
本文参与书香澜梦主题征文“行”文章原创首发，文责自负。我们每一个人都应该有属于自己的愿望或者是理想，人一但有了理想也就算是有了方向，它就会像灯塔一样指引我们前进的方向，哪怕是再远大的理想，如果坚持，那么我相信它就一定有收获。屈原是我最喜欢的一个浪漫主义的诗人，他曾今说过：“路漫漫其修远兮，吾将上下而求索。”人生的道路很长，但是为了实现自己的理想抱负我愿意付出我毕生的精力，只专注这一件事，因为“道阻
第一四三章：天降奇兵逸川
“是她！”为了护住公孙枝，季姜（姜姓吕氏女，名子芸）舍身朝着刺来的长戟迎了过去。待公孙枝反应过来，长戟的尖刃已经抵到了季姜的胸前，让他只感手足无措。然就在这千钧一发之际，有一支羽箭突然从山巅飞来直插入狄兵脖颈，将其连人带戟射倒在地。顺着羽箭飞来的方向望去，却见到一名头戴白色纱笠的女子，正站在山脊上左右开弓。每有羽箭射出，便立时有狄兵应声而倒，端是飒爽无比：“竟不知她技艺如此娴熟！”“她是谁？”听到
TDengine 签约前晨汽车，解锁智能出行的无限潜力涛思数据（TDengine） tdengine 汽车大数据
在全球汽车产业转型升级的背景下，智能网联和新能源技术正迅速成为商用车行业的重要发展方向。随着市场对环保和智能化需求的日益增强，企业必须在技术创新和数据管理上不断突破，以满足客户对高效、安全和智能出行的期待。在这一背景下，前晨汽车凭借其在新能源智能商用车领域的前瞻性布局和技术实力，成为行业中的佼佼者。前晨汽车采用整车数据采集和全车数据打通策略，能够实时将数据推送至APP端客户。然而，这导致整体写入和
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
2021-09-13一切向好发展昀妡
今天，一位学员在群里发了一条求助信息。问题是：一个学生小男孩3年级了，学习态度不端正不认真，也不和老师家长沟通，怎么办？我正好看到了这条消息，便加了她的微信。我问她是否方便电话沟通。在征求学员的同意后，我和她电话沟通了10分钟，给了她一些建议。通过这件事，我看到了自己积极主动的一面。之前，我总说自己消极被动，但其实，问题的根源在于目标不清晰。如果知道方向，还是会突破心理障碍往前走。比如，陌生感召。
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
亮剑的背后晖晖晓
今天是2018年12月21日是【晓晖有话说】陪伴你的第七百一十七天【亮剑的背后】：重新看《亮剑》的小说，沉重大过于狂乱的心情。历史的前进不是直线，不是渐进，可能是进很多步，退很多步，低速的螺旋上升。上升的方向却不明朗，或者是我们人为的设定好了前方的目的，但是整体人类文明的发展却总是产生种种意外，小进步小倒退，小倒退，小进步，我们还年轻。
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
助力新能源汽车产业发展，2025第五届广州国际新能源汽车产业智能制造技术展览会将于11月在广州召开 ws201907 制造汽车
助力新能源汽车产业发展，2025第五届广州国际新能源汽车产业智能制造技术展览会将于11月在广州召开伴随着全球新一轮科技革命和产业变革，汽车与能源、半导体、物联网等领域有关技术加速融合，新能源汽车已成为全球汽车产业转型升级的主要方向。近年来，在相关政策的影响下，新能源汽车市场呈现出快速增长的态势，市场规模不断扩大。截至2020年，中国新能源汽车保有量已超过500万辆，成为全球最大的新能源汽车市场。随
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

OCR文字识别经典论文详解

OCR文字识别综述合集：

OCR文字识别领域论文详解系列：

➡️OCR经典论文介绍

一、文本识别

1.CRNN （重要）

2.Attention_OCR

3.ASTER (重要)

4.MORAN

5.RARE

文本识别方法总结 ：

二、文本检测

1.CTPN

2.EAST & AdvancedEAST

3.PSENet

4.PANNET

5.DBNet

6.RRPN

文字检测算法总结

三、端到端文字识别

1.FOTS

2.ABCnet

端到端文字识别方法总结

通用检测算法总结

你可能感兴趣的:(CV方向,深度学习,深度学习,计算机视觉,人工智能,cv,ocr)

文本识别方法总结：