小小晓晓阳

OCR原理解析

1.概述

2.应用场景

3.发展历史

4.基于传统算法的OCR技术原理

4.1 图像预处理

4.1.1 灰度化

4.1.2 二值化

4.1.3 去噪

4.1.4 倾斜检测与校正

4.1.4.2 轮廓矫正

4.1.5 透视矫正

4.2 版面分析

4.2.1 连通域检测文本

4.2.2 MSER检测文本

4.3 字符切割

4.3.1 连通域轮廓切割

4.3.2 垂直投影切割

4.4 字符识别

4.4.1 识别原理

4.5 版面恢复

4.6 后处理

4.7 传统OCR局限性

5.基于深度学习的OCR技术原理

5.1 两阶段文本识别

5.1.1 文本检测

5.1.1.1 基于回归的方法

5.1.1.2 基于分割的方法

5.1.1.3 文本检测算法发展

5.1.2 文本识别

5.1.2.1 基于CTC技术的预测方法

5.1.2.2 基于Attention机制的网络模型预测方法

5.1.2.3 文字识别算法发展

5.2 端到端文本识别

6.ChatOCR

7.总结

1.概述

OCR （Optical Character Recognition，光学字符识别）技术是一种将印刷体或手写文字转化为可编辑文本的技术。即将图像中的文字进行识别，并以文本的形式返回。

2.应用场景

OCR具有广泛的应用场景，涵盖了各个领域，如OCR识别车辆牌照实现快速通行和行车计费、识别票据快速录入信息、识别试卷辅助计算分数等，以下是一些主要的应用场景:

OCR生态图：

3.发展历史

1929年：德国科学家Tausheck首次提出了OCR的概念，设想利用机器来读取字符和数字

20世纪60年代：世界各国开始对OCR进行正式研究，研究人员将OCR技术理论运用到实际应用中，诞生了第一批OCR系统，但基本只支持数字和英文字母的识别，典型案例就是邮政编码自动识别系统。

20世纪70年代末：我国开始开始进行汉字识别研究，直到1986年研究才进入实际性阶段（863计划），相继推出各种OCR产品。

20世纪80年代：随着计算机技术的发展、扫描设备的逐渐提升以及计算机视觉的不断成熟，开始出现基于图像处理(二值化、投影分析等)和统计机器学习的OCR技术，识别准确度进一步提升。

21世纪：OCR场景逐渐复杂以及识别精度的要求不断提升，传统OCR逐渐不能满足已有需求，基于深度学习的技术让OCR识别效果更近一步。

4.基于传统算法的OCR技术原理

传统OCR基于图像处理（二值化、连通域分析、投影分析等）和统计机器学习（Adaboot、SVM），提取图片上的文本内容；用到的计算机视觉算法库主要有OpenCV、Halcon、VisionPro等，出于开源、多语言支持和方便易用的考虑，我们通常采用OpenCV进行开发，该算法主要流程如下：

4.1 图像预处理

图像预处理是一种在进行主要的图像分析之前，改进图像数据（消除无用信息，强化有用信息，或者提高计算速度）的技术。它可以增强图像质量，使得OCR引擎更好地分离出文本和背景，提高文本的识别准确度，常用图像预处理操作有灰度化、二值化、去噪、倾斜检测与校正、透视矫正等。

4.1.1 灰度化

将彩色图像转化为灰度图像。因为在大多数情况下，我们只需要关注文字和背景的对比度，而不需要关注它们的颜色。灰度化能将计算复杂度大幅降低，同时保留主要信息。

4.1.2 二值化

将图像转换为只包含黑白两色的图像。二值化过程可以通过设定一个阈值来实现，所有低于这个阈值的像素将被标记为黑色，而高于阈值的像素将被标记为白色。这样可以进一步强化文字与背景的对比度。

4.1.3 去噪

使用各种滤波器（例如，中值滤波器、高斯滤波器等）来减少图像中的噪声，如尘埃、划痕、噪点等

4.1.4 倾斜检测与校正

OCR系统需要自动纠正图像中的倾斜，以确保文本的正确识别。这个过程包括检测图像中文本行的倾斜角度，并进行相应的校正，有如下两种常用倾斜校正算法：

4.1.4.1 霍夫曼直线矫正

主要流程如下：

矫正效果如下：

4.1.4.2 轮廓矫正

主要流程如下：

矫正效果如下：

4.1.5 透视矫正

主要流程如下：

矫正效果如下：

4.2 版面分析

识别图像中的文本区域、非文本区域以及文本的结构信息，如列、行、块、标题、段落、表格等，为后续的文字提取步骤提供基础，主要检测文本算法有连通域检测文和MSER检测文本

4.2.1 连通域检测文本

传统检测算法，一般可以分为两个部分，第一个是连通域的提取，第二个是文字连通域的判别。其中，将图像二值化后，通过连通域提取环节会将所有的连通域找出来作为候选集，然后根据启发式规则算法判断提取的连通域是否是文字连通域。流程如图所示：

输出结果：

4.2.2 MSER检测文本

MSER的处理过程：对一幅灰度图像取不同的阈值进行二值化处理，阈值从0至255递增，这个递增的过程就好比是一片土地上的水面不断上升，随着水位的不断上升，一些较低的区域就会逐渐被淹没，从天空鸟瞰，大地变为陆地、水域两部分，并且水域部分在不断扩大。在这个“漫水”的过程中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域。在一幅有文字的图像上，文字区域由于颜色（灰度值）是一致的，因此在水平面（阈值）持续增长的过程中，一开始不会被“淹没”，直到阈值增加到文字本身的灰度值时才会被“淹没”。流程如图所示：

4.3 字符切割

在深度学习序列化模型还未兴起的时候，传统文本识别还不能直接对文本行直接进行文字识别，因为词与词的组合、词组与词组的组合无法枚举穷尽，对这些词组直接分类基本不可能。相对于词语、词组，字符的个数可以穷尽，如果把文本切分成单个字符来识别，任务会简单很多。主要有连通域轮廓切割和垂直投影切割两种方式：

4.3.1 连通域轮廓切割

每个文本行切片的局部图中，单个字符都是一个个独立的对象存在，如果能找到单个独立对象的轮廓信息，那么他的最小外接矩形也能通过一些opencv的函数获取得到，基于连通域的大致流程原理如下：

4.3.2 垂直投影切割

简单场景下，文本行图像中，除了文字像素就是背景像素，字符与字符之间的空隙像素一般较少，而在文字内像素分布较多，基于该特征，将文本行切片二值化变成黑底白字，统计每列中白色像素的个数，得到每列的白色像素的分布，然后根据规律找到合适的分割间隔点并对单字符进行分割，得到最终结果，流程图如下所示：

统计每列白色像素个数和画出垂直投影分布图示例：

4.4 字符识别

在传统OCR文字识别领域，是将文本行的字符识别看成一个多分类问题，中文领域字符识别类别大概有5800，包括常见汉字、标点符号、特殊字符等。

4.4.1 识别原理

在字符分类之前，我们首先将字符切片归一化成统一尺寸，参考经典手写字符分类尺寸大小28x28，统一尺寸后根据图像的常见算法去提取特征，比如hog、sift等；最后分类器选择支持向量机、逻辑回归、决策树等，模型训练完成可以集成端到端进行预测识别。大致流程如下：

像素特征：指图像中每个像素的颜色、亮度、饱和度等属性

HOG特征：也叫方向梯度直方图特征，将输入的图像分割成一个个小小的连通区域，这些独立的区域被称为“细胞单元”。然后，对每一个细胞单元中的所有像素点，计算其梯度或边缘的方向信息，并对这些信息进行统计，生成相应的直方图。最后，将所有细胞单元的直方图按照一定的规则组合起来，就构成了这个图像的HOG特征描述符。

SIFT特征：中文名为尺度不变特征变换，是一种在图像处理领域广泛应用的局部特征提取算法，核心思想实在不同尺度的空间中寻找并精确定位极值点（也称为关键点或特征点），这些极值点通常是图像中比较突出的元素，如角点和边缘点等，并且不会因为光照、仿射变换或者噪声等因素而变化。

4.5 版面恢复

与版面分析相对应，将识别后的文字恢复原始文档图片的排列方式，包括段落、位置和顺序等信息。这个过程不仅涉及到单个字符的识别，也需要考虑文本的布局和结构。例如，对于包含表格、段落样式、文字样式和文档版面的复杂文档，版面恢复可以确保识别结果与原图片的版面布局一致。

4.6 后处理

由于图像质量、字体、噪声等原因，OCR识别文本后往往存在一定的错误，使用合适的后处理方案可以进一步提升OCR识别准确率，后处理阶段主要包含两个核心任务：文本纠错和文本结构化。

文本纠错主要目标是纠正OCR输出文本中的错误文字，通常利用先验词典进行实现或经验规则来进行纠错，也可以采用基于语言模型的纠错机制等方法来对OCR结果进行进一步的校正。

文本结构化主要目标是从OCR输出的文本中定位出所需的信息，并根据特定的应用需求将这些信息进行有效的处理，如从一张包含名片信息的图片中，通过OCR技术识别出名片上的文字，然后利用命名实体识别技术标记出名片中的姓名、电话、邮箱等语义实体。

4.7 传统OCR局限性

虽然传统OCR技术在许多场景中表现得相当出色，但这种技术确定存在一些局限性，尤其实在比较复杂的场景下，一下是一些主要的局限性：

对清晰度和质量的高要求：传统的OCR技术高度依赖图像的质量。如果输入的图像质量较差（例如，图像模糊、对比度低、光照不均、存在噪声等），则OCR的准确度可能会大大降低。
对字体和布局的依赖性：传统的OCR技术通常基于特定的字体和布局进行训练。因此，如果输入的文本使用了训练数据中未包含的字体或者不同的布局，那么识别精度可能会受到影响。
复杂背景下识别效果差：如果文本字符与背景紧密相连或者文本在复杂的背景上，传统的OCR系统可能会难以准确地分割和识别字符。类似地，如果字符被装饰或者以艺术字形式呈现，传统的OCR系统可能也无法准确地识别出这些字符。
手写识别效果差：对于手写文字的识别，传统的OCR系统通常会遇到更大的挑战，因为手写文字的形状、大小和倾斜度变化非常大，且往往缺乏清晰的边界。
无法处理多语言和特殊字符：传统的OCR系统通常针对单一或者少数几种语言进行优化，对于其他语言或者特殊字符，例如数学符号、音乐符号等，可能无法提供满意的识别效果。
缺乏上下文理解：传统的OCR技术通常将字符识别作为一个独立的任务进行，而没有考虑字符的上下文信息。因此，如果一个字符在图像中模糊不清，OCR系统可能无法准确地识别出这个字符。

5.基于深度学习的OCR技术原理

传统OCR技术在处理复杂的图像和不规则形状的文本时，效果并不理想。深度学习时代，机器可以“学习”处理复杂任务，并且对数据具有很好的适应性。通过结合深度学习，建立更为强大和灵活的OCR模型，它能够处理各种类型的文本，并且提高字符识别的准确率。

典型OCR技术路线如下图所示：

基于深度学习的场景文字识别主要包括两种方法，第一种是分为文字检测和文字识别两个阶段；第二种则是通过端对端的模型一次性完成文字的检测和识别。

5.1 两阶段文本识别

5.1.1 文本检测

给定输入图像或视频，找出文本区域，可以是单字符位置或者整个文本行位置；

5.1.1.1 基于回归的方法

基于回归的文本检测是一种自然场景文本检测方法，这种方法主要是借鉴目标检测技术，文本检测方法只有两个类别，图像中的文本视为待检测的目标，其余部分视为背景。通过设定anchor回归检测框或者直接做像素回归实现，这类方法对规则形状文本检测效果较好，但是对不规则形状的文本检测效果会相对差一些。

设定anchor回归检测框方式实现思路

Anchor，也被称为锚框或先验框，主要思路是在图像上预设参照框，这些参照框有不同的大小和形状，并且会在图片上滑动，形成不同的候选框，对于每个候选框，我们都需要预测两个参数：一个是回归值，这个值描述了候选框相对于锚框的位置偏移量；另一个则是分类值，用于判断该候选框是否包含物体。

主要方法有CTPN、Textbox系列和EAST。

像素回归方式实现思路

像素回归可以通过图像语义分割获得可能的文本像素，然后通过像素点进行回归或对文本像素进行聚合得到文本框位置。

主要方法有CRAFT和SA-Text。

优缺点：

优点：对规则形状文本检测效果较好

缺点：无法准确检测不规则形状文本

5.1.1.2 基于分割的方法

基于分割的识别算法是自然场景文本检测算法的一个重要分支，通常包括3个步骤:图像预处理、单字符分割和单字符识别，实现思路与传统OCR识别过程中的字符切割流程类似。

主要实现思路如图所示：

算法示意图:

主要算法有PixelLink、PSENet、DB等

参考：基于分割思想的文本检测算法-腾讯云开发者社区-腾讯云

优缺点：

优点：对不同形状文本的检测效果都比较好

缺点：后处理复杂且耗时长，重写文本识别效果差

5.1.1.3 文本检测算法发展

5.1.2 文本识别

在传统的文本识别方法中，任务分为3个步骤，即图像预处理、字符分割和字符识别。需要对特定场景进行建模，一旦场景变化就会失效。面对复杂的文字背景和场景变动，基于深度学习的方法具有更优的表现。多数现有的识别算法可用如下统一框架表示，算法流程被划分为4个阶段：

常见文本识别算法可以分为基于CTC技术的方法和基于Attention机制的网络模型两大类。

5.1.2.1 基于CTC技术的预测方法

CTC（Connectionist Temporal Classification）是一种经常被用于语音识别和文本识别的算法。它的主要作用是解决输入序列和输出序列长度不同、无法直接对齐的问题。

技术说明

CTC的关键创新是引入了一个特殊的符号，通常被称为“空格”字符或者“blank”字符。这个字符没有实际的语义含义，但它在训练模型时起着关键的作用。

由于OCR识别过程中，输入图像的宽度往往是固定的，而输出的字符数量是变化的，这导致了输入和输出之间存在一个“不对齐”的问题。

CTC通过引入“空格”字符，有效地解决了这个问题。在训练时，我们可以为每个可能的字符预测一个概率，同时还预测一个“空格”字符的概率。然后，我们可以通过一种叫做“解码”的过程，从这些预测的概率中生成最终的字符序列。

典型模型(CRNN)

CRNN网络结构包含三部分，从下到上依次为：

1.卷积层，使用深度CNN，对输入图像提取特征。

2.循环层，使用双向RNN（BLSTM）对特征序列进预测，输出预测标签（真实值）分布。

3.转录层，使用 CTC 损失，把从循环层获取的一系列标签分布转换成最终的标签序列。

小结

基于CTC的解码方式在处理定长输入和变长输出的问题上有着显著的优势，但由于其预测每个字符时并未充分利用上下文信息，所以在处理不规则形状的文本（如弯曲文本或者手写文本）时，效果可能会有所下降。

5.1.2.2 基于Attention机制的网络模型预测方法

我们在阅读时，总是会关注到一些特定的部分，而忽略其他不太重要的信息。在这个过程中，我们总是在上下文中寻找重要的信息，这就是Attention机制。

基于Attention的解码方式是一种在深度学习中广泛使用的方法，尤其在处理序列型问题，如机器翻译和OCR时，表现优异。它之所以被称为"Attention"（注意力），是因为这种机制能模仿人类在处理信息时会关注关键部分的特性。

技术说明

Attention机制的基本思想是，在进行预测时，模型应该“关注”输入中最相关的部分。在OCR的环境中，这意味着在预测某个字符时，模型应该关注图像中与该字符最相关的区域。

Seq2Seq+Attention模型就是基于Attention的一种典型模型。这种模型通常由两部分组成：编码器（Encoder）和解码器（Decoder）。编码器的任务是将输入图像转化为一组特征向量。解码器的任务是将这些特征向量转化为字符序列。

与传统的Seq2Seq模型不同，这里的解码器在生成每一个字符时，都会通过Attention机制来选择和关注哪些特征向量。换句话说，模型会“关注”那些对当前预测最有帮助的特征。

典型模型(ASTER)

引入注意力机制，整合矫正和识别，改善大规则文字识别

1.卷积层：使用DCNN，将输入的图像转化为一组特征向量

2.循环层：使用双向RNN（BLSTM）对特征序列进预测，将这些特征向量转化为字符序列，在生成每一个字符时，解码器都会使用Attention机制来选择和关注哪些特征向量。

小结

基于Attention的解码方式虽然在处理不规则形状的文本，如弯曲文本或手写文本时效果较好，但是需要注意的是，当处理的文本过长或者过短时，这种方法可能效果会有所降低。此外，由于模型需要考虑全部的上下文信息，因此计算复杂度相对较高，这也是基于Attention的解码方式需要注意的一点。

5.1.2.3 文字识别算法发展

5.2 端到端文本识别

与检测-识别的多阶段OCR不同，深度学习使端到端的OCR成为可能，将文本的检测和识别统一到同一个工作流中，其基本思想是共享同一个主干网络，并设计不同的检测模块和识别模块，可以同时训练文本检测和文本识别。

典型模型(FOTS)

FOTS是一个快速的端对端的文字检测与识别框架，通过共享训练特征、互补监督的方法减少了特征提取所需的时间，从而加快了整体的速度。其整体结构如图所示：

1.卷积共享：从输入图象中提取特征，并将底层和高层的特征进行融合；

2.文本检测：通过转化共享特征，输出每像素的文本预测；

3.ROIRotate：将有角度的文本块，通过仿射变换转化为正常的轴对齐的本文块；

4.文本识别：使用ROIRotate转换的区域特征来得到文本标签。

小结

端到端OCR的主要优点包括模型小，速度快，以及整合了文本检测和识别的功能，但由于只有一个模型，可解释性更差，且目前仅在英文、数字识别领域识别效果较好，中文领域识别准确性有待提升。

6.ChatOCR

最近百度飞桨团队推出了一款基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR。它结合了OCR文字识别和文心一言大语言模型，可以在多种场景下提取图像中的关键信息，效果非常惊艳。而传统的OCR识别技术的准确率容易受到多种因素影响，例如图像质量、字符布局、字体样式等。但当我们将OCR技术与大语言模型相结合时，可以避免繁杂的规则后处理，提升泛化能力，从而能够更智能、准确地理解和利用文本信息。

PP-ChatOCRv2体验地址：【PaddleX】PP-ChatOCRv2_AI应用-飞桨AI Studio星河社区

PP-ChatOCRv2效果演示图如下：

7.总结

尽管基于深度学习的OCR表现相较于传统方法更为出色，但是深度学习技术仍需要在OCR领域进行特化，而其中的关键正式传统OCR方法的精髓。因此我们仍需要从传统方法中汲取经验，使其与深度学习有机结合进一步提升OCR的性能表现。另一方面，作为深度学习的推动力，数据起到了至关重要的作用，因此收集广泛而优质的数据也是现阶段OCR性能的重要举措之一。相信随着大模型技术的发展，OCR表现也会越来越好。

解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
【缺陷检测】基于计算机视觉实现电路板智能检测系统附Matlab代码 matlab科研助手计算机视觉 matlab 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍随着信息技术的飞速发展和电子产品的日益普及，印刷电路板（PCB）作为电子产品的核心组件，其质量直接关系到整个系统的性能和可靠性。传统的电路板检测主要依赖人工目检，存在效率低下
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
0基础学画画（稀疏草原），连载75/100天大鱼漫说
大家好，我是大鱼漫说，你们可以叫我大鱼，我现在是一位零基础学习绘画的程序员。每日一问~小鱼问：procreate有哪些好用的快捷键吗？我每次都是去一个一个点击选择。大鱼答：有，最常用的就是撤退和前进，两个手指单击就是撤退，三个手指单击就是快进；再有就是三指上划，可以打开设置键，选择复制、粘贴、剪切等；四指点击屏幕是全屏，两指捏合可以快速放大缩小。这些差不多就够用了，其他的大鱼用的也比较少。打卡画画
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
OCR 赋能发票管理系统：守护医疗票据合规，让管理更智能 EkihzniY ocr 人工智能大数据
医疗收费电子票据种类多、数据杂，票据编号、金额、诊疗项目等信息的合规核验是医院财务管理的重点。传统人工核对易出错，还难以及时发现票据篡改、重复报销等问题。OCR技术为发票管理系统装上“智慧眼”。它能快速识别电子票据上的关键信息，自动与医院HIS系统的收费数据比对，核验金额是否匹配、票据是否真实有效。一旦发现异常，系统立即预警，从源头阻断不合规票据流入财务流程。同时，OCR将票据信息自动录入管理系统
OCR 身份识别：让身份信息录入场景更高效安全 EkihzniY ocr 安全
在银行柜台开户、线上平台实名认证等场景中，身份信息录入是基础环节，OCR身份识别产品正成为提升效率与安全性的关键。传统人工录入身份证信息，不仅耗时久，还易因手误导致姓名、号码出错，影响业务办理进度。而OCR身份识别产品能快速扫描身份证，1秒内精准提取姓名、身份证号、地址等信息，自动填入业务系统，大幅缩短办理时间。在线上实名认证时，OCR结合人脸识别技术，先识别身份证信息，再比对人脸与证件照片，确保
OCR 识别：综合信息采集仪的 “核心引擎” EkihzniY ocr
综合信息采集仪作为多场景信息收集的重要设备，需处理身份证、营业执照、票据等多种载体的信息。传统采集依赖人工录入，面对海量且格式多样的资料，不仅效率低下，还易因人为失误导致信息偏差。OCR识别技术让综合信息采集仪实现质的飞跃。它能快速精准提取各类证件、票据上的文字信息，自动转化为结构化数据存入系统，几秒内完成单份资料的信息采集，效率较人工提升数十倍。无论是模糊的扫描件、复杂的多语种文本，还是不规则的
LLM OCR vs 传统 OCR：解锁文档处理的未来
光学字符识别（OCR）技术早已是数字化文档的得力助手，但你有没有想过，传统OCR和新兴的LLMOCR究竟有何不同？传统OCR就像一台老式打印机，虽然能干活，但在复杂场景下常常“卡壳”。而LLMOCR则像一个聪明的助手，不仅能识别文字，还能读懂文档的“灵魂”。今天，我们就来聊聊这两者的区别，并看看LLMOCR如何为文档处理带来新可能。传统OCR：可靠但有限的老将传统OCR就像一位勤劳的抄写员，擅长把
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

OCR原理解析

1.概述

2.应用场景

3.发展历史

4.基于传统算法的OCR技术原理

4.1 图像预处理

4.1.1 灰度化

4.1.2 二值化

4.1.3 去噪

4.1.4 倾斜检测与校正

4.1.4.2 轮廓矫正

4.1.5 透视矫正

4.2 版面分析

4.2.1 连通域检测文本

4.2.2 MSER检测文本

4.3 字符切割

4.3.1 连通域轮廓切割

4.3.2 垂直投影切割

4.4 字符识别

4.4.1 识别原理

4.5 版面恢复

4.6 后处理

4.7 传统OCR局限性

5.基于深度学习的OCR技术原理

5.1 两阶段文本识别

5.1.1 文本检测

5.1.1.1 基于回归的方法

5.1.1.2 基于分割的方法

5.1.1.3 文本检测算法发展

5.1.2 文本识别

5.1.2.1 基于CTC技术的预测方法

5.1.2.2 基于Attention机制的网络模型预测方法

5.1.2.3 文字识别算法发展

5.2 端到端文本识别

6.ChatOCR

7.总结

你可能感兴趣的:(图像识别,ocr,机器学习,深度学习,计算机视觉)