javastart

使用Tesseract和OpenCV-EAST进行OCR和文本识别

近期，Adrian Rosebrock 发布一篇教程，介绍了如何使用 OpenCV、Python 和 Tesseract 执行文本检测和文本识别。从安装软件和环境、项目流程、review 代码、实验结果，到展示局限、提出建议，这篇教程可以说十分详细了。机器之心对该教程进行了摘要编译介绍。英语好可以参考 https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/

本教程将介绍如何使用 OpenCV OCR。我们将使用 OpenCV、Python 和 Tesseract 执行文本检测和文本识别。

之前的教程展示了如何使用 OpenCV 的 EAST 深度学习模yi型执行文本检测（参见 https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/）。使用该模型能够检测和定位图像中文本的边界框坐标。

那么下一步就是使用 OpenCV 和 Tesseract 处理每一个包含文本的图像区域，识别这些文本并进行 OCR 处理。

本教程将介绍如何构建自己的 OpenCV OCR 和文本识别系统！

使用 Tesseract 进行 OpenCV OCR 和文本识别

为了执行 OpenCV OCR 和文本识别任务，我们首先需要安装 Tesseract v4，包括一个用于文本识别的高度准确的深度学习模型。

然后，我将展示如何写一个 Python 脚本，使其能够：

使用 OpenCV EAST 文本检测器执行文本检测，该模型是一个高度准确的深度学习文本检测器，可用于检测自然场景图像中的文本。
使用 OpenCV 检测出图像中的文本区域后，我们提取出每个文本 ROI 并将其输入 Tesseract，从而构建完整的 OpenCV OCR 流程！

最后，我将展示一些使用 OpenCV 应用文本识别的示例，并讨论该方法的缺陷。

下面就开始本教程的正式内容吧！

如何安装 Tesseract v4

图 1：Tesseract OCR 引擎于 20 世纪 80 年代出现，到 2018 年，它已经包括内置的深度学习模型，变成了更加稳健的 OCR 工具。Tesseract 和 OpenCV 的 EAST 检测器是一个很棒的组合。

Tesseract 是一个很流行的 OCR 引擎，20 世纪 80 年代由 Hewlett Packard 开发，2005 年开源，自 2006 年起由谷歌赞助开发。该工具在受控条件下也能很好地运行，但是如果存在大量噪声或者图像输入 Tesseract 前未经恰当处理，则性能较差。

深度学习对计算机视觉的各个方面都产生了影响，字符识别和手写字体识别也不例外。基于深度学习的模型能够实现前所未有的文本识别准确率，远超传统的特征提取和机器学习方法。Tesseract 纳入深度学习模型来进一步提升 OCR 准确率只是时间问题，事实上，这个时间已经到来。

Tesseract (v4) 最新版本支持基于深度学习的 OCR，准确率显著提高。底层的 OCR 引擎使用的是一种循环神经网络（RNN）——LSTM 网络。

安装 OpenCV

要运行本教程的脚本，你需要先安装 3.4.2 或更高版本的 OpenCV。安装教程可参考 https://www.pyimagesearch.com/opencv-tutorials-resources-guides/，该教程可确保你下载合适的 OpenCV 和 OpenCV-contrib 版本。

在 Ubuntu 上安装 Tesseract 4

在 Ubuntu 上安装 Tesseract 4 的具体命令因你使用的 Ubuntu 版本而异（Ubuntu 18.04、Ubuntu 17.04 或更早版本）。你可使用 lsb_release 命令检查 Ubuntu 版本：

如上所示，我的机器上运行的是 Ubuntu 18.04，不过你在继续操作之前需要先检查自己的 Ubuntu 版本。

对于 Ubuntu 18.04 版本的用户，Tesseract 4 是主 apt-get 库的一部分，这使得通过下列命令安装 Tesseract 非常容易：

如果你正在使用 Ubuntu 14、16 或 17 版本，那么由于依赖需求，你需要额外的命令行。

Alexander Pozdnyakov 创建了用于 Tesseract 的 Ubuntu PPA（https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr），大大简化了在 Ubuntu 旧版本上安装 Tesseract 4 的过程。

只需要向系统添加 alex-p/tesseract-ocr PPA 库，更新你的包定义，然后安装 Tesseract：

如果没有错误，那么你应该已经在自己的机器上成功安装了 Tesseract 4。

在 macOS 上安装 Tesseract 4

如果你的系统中安装有 Homebrew（macOS「非官方」包管理器），那么在 macOS 上安装 Tesseract 4 很简单。

只需要运行以下命令，确保指定 --HEAD，即可在 Mac 电脑上安装 Tesseract v4：

安装好之后，你可能想删除初始安装的链接：

接下来就可以运行安装命令了。

验证你的 Tesseract 版本

图 2：我的系统终端截图。我输入 tesseract -v 命令来检查 Tesseract 版本。

确保安装了 Tesseract 以后，你应该执行以下命令验证 Tesseract 版本：

只要输出中包含 tesseract 4，那么你就成功在系统中安装了 Tesseract 的最新版本。

安装 Tesseract + Python 捆绑

安装好 Tesseract 库之后，我们需要安装 Tesseract + Python 捆绑，这样我们的 Python 脚本就可以与 Tesseract 通信，并对 OpenCV 处理过的图像执行 OCR。

如果你使用的是 Python 虚拟环境（非常推荐，你可以拥有独立的 Python 环境），那么使用 workon 命令访问虚拟环境：

如上所示，我访问了一个叫做 cv 的 Python 虚拟环境（cv 是「计算机视觉」的缩写），你也可以用其他名字命名虚拟环境。

接下来，我们将使用 pip 来安装 Pillow（PIL 的 Python 版本），然后安装 pytesseract 和 imutils：

现在打开 Python shell，确认你导入了 OpenCV 和 pytesseract：

恭喜！如果没有出现导入错误，那么你的机器现在已经安装好，可以使用 OpenCV 执行 OCR 和文本识别任务了。

理解 OpenCV OCR 和 Tesseract 文本识别

图 3：OpenCV OCR 流程图。

现在我们已经在系统上成功安装了 OpenCV 和 Tesseract，下面我们来简单回顾一下流程和相关命令。

首先，我们使用 OpenCV 的 EAST 文本检测器来检测图像中的文本。EAST 文本检测器将提供文本 ROI 的边界框坐标。我们将提取每个文本 ROI，将其输入到 Tesseract v4 的 LSTM 深度学习文本识别算法。LSTM 的输出将提供实际 OCR 结果。最后，我们将在输出图像上绘制 OpenCV OCR 结果。

过程中使用到的 Tesseract 命令必须在 pytesseract 库下调用。在调用 tessarct 库时，我们需要提供大量 flag。最重要的三个 flag 是 -l、--oem 和 --ism。

-l flag 控制输入文本的语言，本教程示例中使用的是 eng（英语），在这里你可以看到 Tesseract 支持的所有语言：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files。

--oem（OCR 引擎模式）控制 Tesseract 使用的算法类型。执行以下命令即可看到可用的 OCR 引擎模式：

我们将使用--oem 1，这表明我们希望仅使用深度学习 LSTM 引擎。

最后一个重要的 flag --psm 控制 Tesseract 使用的自动页面分割模式：

对文本 ROI 执行 OCR，我发现模式 6 和 7 性能较好，但是如果你对大量文本执行 OCR，那么你可以试试 3（默认模式）。

如果你得到的 OCR 结果不正确，那么我强烈推荐调整 --psm，它可以对你的输出 OCR 结果产生极大的影响。

项目结构

你可以从本文「Downloads」部分下载 zip。然后解压缩，进入目录。下面的 tree 命令使得我们可以在终端阅览目录结构：

我们的项目包含一个目录和两个重要文件：

images/：该目录包含六个含有场景文本的测试图像。我们将使用这些图像进行 OpenCV OCR 操作。
frozen_east_text_detection.pb：EAST 文本检测器。该 CNN 已经经过预训练，可用于文本检测。它是由 OpenCV 提供的，你也可以在「Downloads」部分下载它。
text_recognition.py：我们的 OCR 脚本。我们将逐行 review 该脚本。它使用 EAST 文本检测器找到图像中的文本区域，然后利用 Tesseract v4 执行文本识别。

实现我们的 OpenCV OCR 算法

现在开始用 OpenCV 执行文本识别吧！

打开 text_recognition.py 文件，插入下列代码：

本教程中的 OCR 脚本需要五个导入，其中一个已经内置入 OpenCV。

最显著的一点是，我们将使用 pytesseract 和 OpenCV。我的 imutils 包将用于非极大值抑制，因为 OpenCV 的 NMSBoxes 函数无法适配 Python API。我注意到 NumPy 是 OpenCV 的依赖项。

argparse 包被包含在 Python 中，用于处理命令行参数，这里无需安装。

现在已经处理好导入了，接下来就来实现 decode_predictions 函数：

decode_predictions 函数从第 8 行开始，在这篇文章中有详细介绍（https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/）。该函数：

使用基于深度学习的文本检测器来检测（不是识别）图像中的文本区域。
该文本检测器生成两个阵列，一个包括给定区域包含文本的概率，另一个阵列将该概率映射到输入图像中的边界框位置。

EAST 文本检测器生成两个变量：

scores：文本区域的概率。
geometry：文本区域的边界框位置。

两个变量都是 decode_predictions 函数的参数。

该函数处理输入数据，得出一个包含文本边界框位置和该区域包含文本的相应概率的元组：

rects：该值基于 geometry，其格式更加紧凑，方便我们稍后将其应用于 NMS。
confidences：该列表中的置信度值对应 rects 中的每个矩形。

这两个值都由 decode_predictions 函数得出。

注意：完美情况下，旋转的边界框也在 rects 内，但是提取旋转边界框不利于解释本教程的概念。因此，我计算了水平的边界框矩形（把 angle 考虑在内）。如果你想提取文本的旋转边界框输入 Tesseract，你可以在第 41 行获取 angle。

关于上述代码块的更多细节，参见 https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/。

下面我们来解析命令行参数：

我们的脚本需要两个命令行参数：

--image：输入图像的路径。
--east：预训练 EAST 文本检测器的路径。

下列命令行参数是可选的：

--min-confidence：检测到的文本区域的最小概率。
--width：图像输入 EAST 文本检测器之前需要重新调整的宽度，我们的检测器要求宽度是 32 的倍数。
--height：与宽度类似。检测器要求调整后的高度是 32 的倍数。
--padding：添加到每个 ROI 边框的（可选）填充数量。如果你发现 OCR 结果不正确，那么你可以尝试 0.05、0.10 等值。

下面，我们将加载和预处理图像，并初始化关键变量：

第 82 行和 83 行，将图像加载到内存中，并复制（这样稍后我们可以在上面绘制输出结果）。

获取原始宽度和高度（第 84 行），然后从 args 词典中提取新的宽度和高度（第 88 行）。我们使用原始和新的维度计算比率，用于稍后在脚本中扩展边界框坐标（第 89 和 90 行）。

然后调整图像大小，此处忽略长宽比（第 93 行）。

接下来，我们将使用 EAST 文本检测器：

第 99 到 101 行，将两个输出层名称转换成列表格式。然后，将预训练 EAST 神经网络加载到内存中（第 105 行）。

必须强调一点：你至少需要 OpenCV 3.4.2 版本，它有 cv2.dnn.readNet 实现。

接下来就是见证第一个「奇迹」的时刻：

为确定文本位置，我们：

在第 109 和 110 行构建 blob。详情参见 https://www.pyimagesearch.com/2017/11/06/deep-learning-opencvs-blobfromimage-works/。
将 blob 输入 EAST 神经网络中，获取 scores 和 geometry（第 111 和 112 行）。
使用之前定义的 decode_predictions 函数解码预测（第 116 行）。
通过 imutils 方法进行非极大值抑制（第 117 行）。NMS 高效使用概率最高的文本区域，删除其他重叠区域。

现在我们知道文本区域的位置了，接下来需要识别文本。我们开始在边界框上循环，并处理结果，为实际的文本识别做准备：

我们初始化 results 列表，使其包含我们的 OCR 边界框和文本（第 120 行）。然后在 boxes 上进行循环（第 123 行），我们：

基于之前计算的比率扩展边界框（第 126-129 行）。
填充边界框（第 134-141 行）。
最后，提取被填充的 roi（第 144 行）。

本文的 OpenCV OCR 流程可以使用一点 Tesseract v4「魔术」来完成：

第 151 行，我们设置 Tesseract config 参数（英语、LSTM 神经网络和单行文本）。

注：如果你获取了错误的 OCR 结果，那么你可能需要使用本教程开头的指令配置 --psm 值。

第 152 行，pytesseract 库进行剩下的操作，调用 pytesseract.image_to_string，将 roi 和 config string 输入其中。

只用两行代码，你就使用 Tesseract v4 识别了图像中的一个文本 ROI。记住，很多过程在底层发生。

我们的结果（边界框值和实际的 text 字符串）附加在 results 列表（第 156 行）中。

接下来，我们继续该流程，在循环的基础上处理其他 ROI。

现在，我们来打印出结果，查看它是否真正有效：

第 159 行基于边界框的 y 坐标按自上而下的顺序对结果进行了排序。

对结果进行循环，我们：

将 OCR 处理过的文本打印到终端（第 164-166 行）。
从文本中去掉非 ASCII 字符，因为 OpenCV 在 cv2.putText 函数中不支持非 ASCII 字符（第 171 行）。
基于 ROI 绘制 ROI 周围的边界框和结果文本（第 173-176 行）。
展示输出，等待即将按下的键（第 179、180 行）。

OpenCV 文本识别结果

现在我们已经实现了 OpenCV OCR 流程。

确保使用本教程「Downloads」部分下载源代码、OpenCV EAST 文本检测器模型和示例图像。

打开命令行，导航至下载和提取压缩包的位置，然后执行以下命令：

图 4：对 OpenCV OCR 的第一次尝试成功！

我们从一个简单示例开始。

注意我们的 OpenCV OCR 系统如何正确检测图像中的文本，然后识别文本。

下一个示例更具代表性，是一个现实世界图像：

图 5：更复杂的图像示例，我们使用 OpenCV 和 Tesseract 4 对这个白色背景的标志牌进行了 OCR 处理。

再次，注意我们的 OpenCV OCR 系统如何正确定位文本位置和识别文本。但是，在终端输出中，我们看到了一个注册商标 Unicode 符号，这里 Tesseract 可能被欺骗，因为 OpenCV EAST 文本检测器报告的边界框与标志牌后面的植物发生重叠。

下面我们来看另一个 OpenCV OCR 和文本识别示例：

图 6：使用 OpenCV、Python 和 Tesseract 对包含三个单词的大标志牌进行 OCR 处理。

该示例中有三个单独的文本区域。OpenCV 的文本检测器能够定位每一个文本区域，然后我们使用 OCR 准确识别每个文本区域。

下一个示例展示了在特定环境下添加填充的重要性：

图 7：在这个烘培店场景图像中，我们的 OpenCV OCR 流程在处理 OpenCV EAST 文本检测器确定的文本区域时遇到了问题。记住，没有一个 OCR 系统完美适用于所有情况。那么我们能否通过更改参数来做得更好呢？

首先尝试对这家烘培店的店面进行 OCR，我们看到「SHOP」被正确识别，但是：

「CAPUTO」中的「U」被错误识别为「TI」。
「CAPUTO'S」中的「'S」被漏掉。
「BAKE」被错误识别为「|.」。

现在我们添加填充，从而扩展 ROI 的边界框坐标，准确识别文本：

图 8：通过向 EAST 文本检测器确定的文本区域添加额外的填充，我们能够使用 OpenCV 和 Tesseract 对烘培店招牌中的三个单词进行恰当的 OCR 处理。

仅仅在边界框的四角周围添加 5% 的填充，我们就能够准确识别出「BAKE」、「U」和「'S」。

当然，也有 OpenCV 的失败案例：

图 9：添加了 25% 的填充后，我们的 OpenCV OCR 系统能够识别招牌中的「Designer」，但是它无法识别较小的单词，因为它们的颜色与背景色太接近了。我们甚至无法检测到单词「SUIT」，「FACTORY」能够检测到，但无法使用 Tesseract 识别。我们的 OCR 系统离完美还很远。

下面介绍了该 OCR 系统的一些局限和不足，以及对改进 OpenCV 文本识别流程的建议。

局限和不足

记住，没有完美的 OCR 系统，尤其是在现实世界条件下。期望 100% 的 OCR 准确率也是不切实际的。

我们的 OpenCV OCR 系统可以很好地处理一些图像，但在处理另外一些图像时会失败。该文本识别流程失败存在两个主要原因：

文本被扭曲或旋转。
文本字体与 Tesseract 模型训练的字体相差太远。

即使 Tesseract v4 与 v3 相比更加强大、准确，但该深度学习模型仍然受限于训练数据。如果你的文本字体与训练数据字体相差太远，那么 Tesseract 很可能无法对该文本进行 OCR 处理。

其次，Tesseract 仍然假设输入图像/ROI 已经经过恰当清洁。而当我们在自然场景图像上执行文本识别时，该假设不总是准确。

总结

本教程介绍了如何使用 OpenCV OCR 系统执行文本检测和文本识别。

为了实现该任务，我们

利用 OpenCV EAST 文本检测器定位图像中的文本区域。
提取每个文本 ROI，然后使用 OpenCV 和 Tesseract v4 进行文本识别。

我们还查看了执行文本检测和文本识别的 Python 代码。

该 OpenCV OCR 流程在一些情况下效果很好，另一些情况下并不那么准确。要想获得最好的 OpenCV 文本识别结果，我建议你确保：

输入 ROI 尽量经过清理和预处理。在理想世界中，你的文本应该能够与图像的其他部分完美分割，但是在现实情况下，分割并不总是那么完美。
文本是在摄像机 90 度角的情况下拍摄的，类似于自上而下、鸟瞰的角度。如果不是，那么角度变换可以帮助你获得更好的结果。

以上就是这次的教程，希望对大家有所帮助！

原文链接：https://www.pyimagesearch.com/2018/09/17/opencv-ocr-and-text-recognition-with-tesseract/

【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
OpenVINO™2025部署PaddleOCR模型 OpenVINO 中文社区经验分享
PaddleOCR模型下载OpenVINO™2025支持直接加载paddle的模型。所以可以直接先从官网直接下载PaddleOCRv5.0的模型：文本检测模型下载地址#DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer
转换PP-OCRv5模型为OpenVINO格式的详细指南 mingo_敏 OpenVINO openvino 人工智能
转换PP-OCRv5模型为OpenVINO格式的详细指南一、引言PP-OCRv5是百度飞桨推出的高性能OCR（光学字符识别）模型，在文本检测和识别任务中表现出色。整体识别精度相比上一代提升13个百分点。OpenVINO则是英特尔推出的开源深度学习推理框架，能显著优化模型在英特尔硬件上的推理性能。本文将详细介绍如何将PP-OCRv5模型转换为OpenVINO格式（.xml和.bin文件），并实现高效
PaddleOCR检测模型微调实战：从数据准备到生产一休哥助手 ocr
一、检测模型微调的核心价值1.1预训练模型的局限性场景通用模型表现微调后提升典型案例特殊字体识别62%89%古籍文字识别小目标文本检测55%82%工业零件编号密集文本场景71%93%财务报表解析倾斜文本检测68%91%街景门牌识别1.2PaddleOCR检测模型优势模型丰富性：支持DB、EAST、SAST等主流算法训练效率高：混合精度训练加速40%部署便捷性：支持ONNX/TensorRT等格式导
使用 java-onnx 部署 PaddleOCR-v3 文本检测 0x13 深度学习/机器学习/强化学习 ocr paddlepaddle 文本检测人工智能计算机视觉
文本检测：文本检测(TextDetection)是计算机视觉领域的经典问题，该技术旨在寻求一种可靠方法作为文本识别技术的前端，是目标检测(ObjectDetection)领域的一个子问题。模型推理输出文本区域需要经过二值化之后使用opencv查找轮廓，然后获取最小外接矩形并扩展得到最终的文本区域，后续需要矩形旋转、投影变换等操作作为文本识别的输入。文本识别可以用crnn等各种模型。paddlepa
大模型安全相关研究 CSPhD-winston-杨帆 LLMs-安全论文阅读论文翻译人工智能
文章目录1AI生成文本规避检测研究2AI生成文本检测(AIGTD)研究论文综述3安全4事实核查1AI生成文本规避检测研究综述id平台讲解论文名12023-arxiv讲解TowardsPossibilities&ImpossibilitiesofAI-generatedTextDetection:ASurvey22024JCRQ1区讲解SurveyonAI-GeneratedPlagiarismDe
基于Python开发的海关报表自动识别系统的示例代码 go5463158465 python 深度学习算法 python 开发语言
以下是一个基于Python开发的海关报表自动识别系统的示例代码，该系统包含输入报表、预处理、分类识别、文本检测和生成报表的基本功能。本示例主要使用了pytesseract进行文本识别，opencv-python进行图像预处理，同时简单模拟了报表分类的逻辑。环境准备在运行代码之前，需要安装以下库：pipinstallopencv-pythonpytesseractpandas此外，还需要安装Tess
PaddleOCR超大分辨率文本检测代码教程 LEILEI18A Python 深度学习 paddle paddleocr ppocr 超大分辨率文本检测
PaddleOCR超大分辨率文本检测代码教程目录1.前提2.PaddleOCR部署（win10下）3.解决思路和代码1.前提这是我提的issue：https://github.com/PaddlePaddle/PaddleOCR/issues/11888很多问题可以看：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/do
京东数据分析岗面试题目整理 Data地平线
1，怎么做恶意刷单检验分类问题用机器学习方法建模解决，特征有：1）商家特征：商家历史销量、信用、产品类别、发货快递公司等2）用户行为特征：用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号3）环境特征（主要是避免机器刷单）：地区、ip、手机型号等4）异常检测：ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等5）评论文本检测：刷单的评论文本可能套路较为一致，计算与已标注评
DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒我爱计算机视觉计算机视觉深度学习人工智能
关注公众号，发现CV技术之美针对场景文本检测任务，近期基于DEtectionTRansformer(DETR)框架预测控制点的研究工作较为活跃。在基于DETR的检测器中，query的构建方式至关重要，现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率以及性能。除此之外，在如何监督模型方面，之前工作中使用的点标签形式影射了人的阅读顺序，本文观察到这实际上会降低检测器的鲁棒性。为解决以上问题，本
OCR-paddleocr 青霄检测识别 paddleocr 检测识别
PaddleOCR分为Detection（文本检测）、Directionclassifier（方向分类器）和Recognition（文本识别）三部分，因此需要三个模型。一、介绍PaddleOCR是一款超轻量、中英文识别模型目标是打造丰富、领先、实用的文本识别模型/工具库3.5M实用超轻量OCR系统，支持在服务器，移动，嵌入式和IoT设备之间进行培训和部署同时支持中英文识别；支持倾斜、竖排等多种方向
【读点论文】SPTS v2:Single-Point Scene Text Spotting，通过改变标注方式获得更好的模型泛化能力，相比于SPTS提高了模型训练合推理速度羞儿论文笔记 ocr
SPTSv2:Single-PointSceneTextSpottingAbstract端到端场景文本识别由于文本检测和识别之间的内在协同作用而取得了重大进展。以往的方法通常以手工标注为前提，如水平矩形、旋转矩形、四边形、多边形等，这比单点标注要昂贵得多。我们的新框架SPTSv2允许我们使用单点注释训练高性能的文本识别模型。SPTSv2保留了具有实例分配解码器(IAD)的自回归Transforme
【读点论文】SPTS Single-Point Text Spotting 羞儿论文笔记 OCR 单点标注
SPTSSingle-PointTextSpottingABSTRACT现有的场景文本识别(即，端到端文本检测和识别)方法依赖于昂贵的边界框注释(例如，文本行，词级或字符级边界框)。我们首次证明，训练场景文本识别模型可以通过对每个实例的单点进行极低成本的标注来实现。我们提出了一种端到端的场景文本识别方法，将场景文本识别作为一个序列预测任务来处理。给定图像作为输入，我们将所需的检测和识别结果表述为离
mmocr 安装及快速运行 TYUT_xiaoming mmocr ocr
MMOCR是一个基于PyTorch和MMDetection的开源工具箱，支持众多OCR相关的模型，涵盖了文本检测、文本识别以及关键信息提取等多个主要方向。它还支持了大多数流行的学术数据集，并提供了许多实用工具帮助用户对数据集和模型进行多方面的探索和调试，助力优质模型的产出和落地。它具有以下特点：全流程，多模型：支持了全流程的OCR任务，包括文本检测、文本识别及关键信息提取的各种最新模型。模块化设计
FastDeploy项目简介，使用其进行（图像分类、目标检测、语义分割、文本检测|orc部署）万里鹏程转瞬至深度学习python库使用目标检测深度学习模型部署
FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具，支持云边端部署。提供超过160+Text，Vision，Speech和跨模态模型开箱即用的部署体验，并实现端到端的推理性能优化。包括物体检测、字符识别（OCR）、人脸、人像扣图、多目标跟踪系统、NLP、StableDiffusion文图生成、TTS等几十种任务场景，满足开发者多场景、多硬件、多平台的产业部署需求。1、FastD
护照关键信息识别与提取彧侠
综述最近工作中进行了OCR文本检测与识别开发，文本检测/识别顾名思义就是通过一张图片或图像数据提取其中的文本信息（图像->文字）。但是实际应用中涉及到的使用场景有很多，有些场景下如果只是简单的输出图像中的文字并不能很好的解决实际问题，仍然需要人为的挑选与整理这些文本信息，费时费力。如果能通过程序代码实现对这些混乱的文本信息进行整理与输出将起到事半功倍的效果。下面我就以中国大陆护照识别为例，来讲解如
OpenCV 新版滴 4.5.1 发布啦！ AAI机器之心 opencv 人工智能计算机视觉机器学习 dnn KNN cnn
发布亮点：OpenCVGithub项目终于突破50000stars！新的里程碑~这次发布的特性包括：集成更多的GSoC2020项目的结果，包括：开发了OpenCV.jsDNN模块，以方便再网页中使用，并提供了相关教程。图像分类目标检测风格迁移语义分割姿态估计OpenCV.jsWASMSIMD优化2.0，网页端调用OpenCV更快了新增文本检测和识别高级APISIFT算法优化，主要是16位整型高斯滤
【iOS】——基于Vision Kit框架实现图片文字识别不会敲代码的VanGogh ios objective-c 学习 apple vision pro
文章目录前言一、文本识别的分类二、实现步骤1.导入VisionKit框架2.创建请求处理器3.在请求处理器中设置文字识别功能4.将图片添加到请求处理器中5.发起文字识别请求6.处理识别结果三、运行结果测试1.纯英文环境2.中英文混合环境前言根据苹果的官方文档，Vision可以执行面部检测、文本检测、条形码识别、图像注册和一般功能跟踪。Vision还允许将自定义CoreML模型用于分类或对象检测等任
文本检测最近文章检索（2）葛葛葛立鹏啊文献
期刊1）RotatedcascadeR-CNN:Ashaperobustdetectorwithcoordinateregression旋转叶栅R-CNN：具有坐标回归的形状鲁棒检测器YixingZhu;ChixiangMa;JunDu;NationalEngineeringLaboratoryforSpeechandLanguageInformationProcessingUniversityo
【Pytorch】学习记录分享13——OCR(Optical Character Recognition,光学字符识别) 大江东去浪淘尽千古风流人物 DeepLearning 学习 ocr 百度云
@[TOC](OCR(OpticalCharacterRecognition,光学字符识别))1.OCR资源汇总OCR(OpticalCharacterRecognition,光学字符识别)指提取图像中的文字信息，通常包括文本检测和文本识别。文字检测：将图片中的文字区域位置检测出来（如图1(b)所示）；文字识别：对文字区域中的文字进行识别（如图1©所示）。项目实例代码,评论点击0013获取项目代码
二十分钟入门计算机视觉开源神器——课堂笔记敲键盘的喵桑 OpenMMLab实战营笔记深度学习人工智能
1，统一的深度学习框架，2.02，现状3，代表算法库（1）目标检测MMDetection任务支持：目标家呢，实力分割，全景分割覆盖广泛算法丰富使用方便（2）MMYOLO（3）MMOCR文本检测，文本识别，关键信息提取（4）MMDetection3D(5)MMRotate(6)MMSegmentation(7)MMPretrain图像分类+预训练+多模态算法库(8)MMPose姿态估计（关键点检测）
小白综述：深度学习 OCR 图片文字识别 ctrl A_ctrl C_ctrl V #OCR 图片文字识别深度学习 ocr 人工智能
文章目录1.OCR算法流程1.1传统OCR方法1.2深度学习OCR方法1.2.1two-stage方法：文字检测+识别1.2.2端到端方法2.文本检测算法3.文本识别算法3.1基于分割的单字符识别方法3.2基于序列标注的文本行识别方法1.OCR算法流程OCR(OpticalCharacterRecognition,光学字符识别)是指提取图像中的文字信息。1.1传统OCR方法传统OCR方法一般包含预
cnstd使用效果测试回到工作狂状态 cnocr cnstd
使用参考：https://github.com/breezedeus/CnSTD/tree/master原理参考：https://cnocr.readthedocs.io/zh/latest/intro-cnstd-cnocr.pdf模型：结论：经过测试，长文本检测效果不错，短文本可能角度不对fromcnstdimportCnStdimportcv2fromcnocrimportCnOcr#文字检
paddlehub 文本检测使用回到工作狂状态 paddlehub
PaddleHub负责模型的管理、获取和预训练模型的使用。参考：https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/image/text_recognition/chinese_text_detection_db_serverimportpaddlehubashubimportcv2#fromutilsimportcv_sh
CharNet:卷积字符网络 Alpha-Go 文本检测与识别深度学习
卷积字符网络论文与开源代码导论卷积字符网络概览字符分支文本检测分支迭代字符检测实验，结果与比较迭代字符检测算法文字检测的结果端到端文字识别结果结论论文与开源代码开源代码：https://github.com/MalongTech/research-charnet论文：https://arxiv.org/abs/1910.07954v1在这里非常感谢作者“码隆科技”，让我有机会能这么轻松的看完一篇论
基于DBNetpp的文本检测的仪表盘读数识别羁旅少年 ocr 深度学习
一个不知名大学生，江湖人称菜狗originalauthor:JackyLiEmail:[email protected]：2023.12.31Lastedited:2023.12.31祝自己生日快乐啦！！！！目录算法设计（1）基于YOLOv5s的仪表检测（2）基于YOLOv8x-pose的指针和刻度关键点检测（3）基于DBNetpp的文本检测（4）基于SATRN模型
DBNet文本检测网络 (FPN、batch normalization、Transpose conv) shuyeah DBNet网络深度学习文本检测
DBNet文本检测网络概述DBNet论文地址：https://arxiv.org/pdf/1911.08947.pdfDBNet是一种基于分割的文本检测网络，使用分割网络提供自适应的thresh用于二值化。原始二值化方法和DBNet中的动态阈值传统的基于分割的检测方法，对于分割后的特征层，使用直接二值化，生成检测结果。直接二值化的方法不可微分，不能参与到网络模型的训练中。DBNet增加了thres
GPT Zero 是什么？程序员泥瓦匠 java
fromhttps://openaigptguide.com/gptzero/在人工智能技术飞速发展的今天，人们对于文字内容的准确性和可信度要求越来越高。例如在学术研究领域，防止抄袭和造假是非常重要的。而对于普通用户而言，辨别哪些内容是由人工智能生成的，哪些内容是由人类编写的，也逐渐成为一个亟待解决的问题。GPTZero不仅能提供准确的文本检测结果，还具有简洁直观的用户界面。无论是iOS还是And
LOMO-Paper简析 ZerOo0
LOMO是百度提出的文本检测深度网络模型，用以解决目前主流模型（如EAST）的感受野对长文本覆盖不足以及对弯曲或波浪形文本检测能力不足的问题。LookMoreThanOnce:AnAccurateDetectorforTextofArbitraryShapes原文链接1.简介LOMO(LOokMorethanOnce)网络是百度提出的文本检测深度模型，用以解决目前主流模型（如EAST）的感受野对长
自然场景下的文本检测和识别 EAST text detector and recognition gaoshine
自然场景下的文本检测和识别EASTtextdetectorandrecognition最近在做巡检机器人和仪表识别算法,巡检机器人拍摄的照片除了指针仪表和状态灯以外,还有一部分是数字显示的仪表,这样对仪表的数值的识别就需要后台代码具备检测文本和识别的功能了.另外,一些项目中也有对移动的车厢或者罐子上的编号做识别处理,这样一套算法就可以搞定这些问题了.仪表面板铁罐编号1铁罐编号21.EASTtext
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

使用Tesseract和OpenCV-EAST进行OCR和文本识别

你可能感兴趣的:(文本检测)