小北的北

OCR升级版 — 微调EasyOCR实战

OCR是从图像中提取文本的有价值工具。然而，有时您使用的OCR在特定需求上的表现不如您所希望的那样好。如果您面临这样的问题，微调OCR引擎是解决的一种方法。在本教程中，我将向您展示如何微调EasyOCR，这是一个免费、开源的OCR引擎，您可以在Python中使用。

概述

先决条件
安装所需的软件包
克隆所需的Git存储库
生成数据集
将数据集转换为lmdb格式
检索预训练的OCR模型：
运行微调
使用微调后的模型运行推理
性能的定性测试
性能的定量测试
结论

先决条件

基本的Python知识
如何使用终端的基本知识

安装所需的软件包

首先，让我们安装所需的pip软件包。我建议为此创建一个虚拟环境，尽管这不是必需的。逐行运行以下命令：

pip install fire
pip install lmdb
pip install opencv-python
pip install natsort
pip install nltk

您还需要从此网站安装PyTorch（选择您的规格并复制pip install命令，查看下面我用于我的规格的命令）。最好选择GPU版本，但CPU版本也可以正常工作，唯一的区别是在CPU上运行微调会更慢。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

克隆所需的Git存储库

首先，您需要一个Git存储库，它将帮助您运行微调。使用以下命令克隆此Git存储库：

git clone https://github.com/clovaai/deep-text-recognition-benchmark

该存储库将为我们提供一些在微调EasyOCR模型时使用的有用文件。请注意，本文中使用的许多终端命令都来自该存储库，然后根据我的需求进行了调整，因此建议阅读该存储库。

我想在这里补充一下，clovaai在Git上总体上有许多对我非常有帮助的好存储库，所以请随时查看他们拥有的其他有趣的存储库。他们还有另一个非常有趣的存储库，即Donut模型存储库，我还写了一篇关于微调Donut模型的文章，您也应该查看一下。

生成数据集

在您可以微调OCR之前，您必须有一个要微调的数据集。您可以下载数据集或自己制作一个。由于我希望我的OCR在扫描超市收据时特别好，我将创建一个包含您可以在超市找到的物品的数据集，但请随时根据您需要OCR在其上执行良好的数据制作数据集。在本章中，我使用此GitHub页面来帮助我。

最简单的方法，使用我的虚拟数据集：

下载数据集

如果您想要另一个更大的数据集，可以从Dropbox官网上下载数据_lmdb_release.zip文件（请注意，其大小略大于18GB）。下载链接：https://drive.google.com/drive/folders/15WPsuPJDCzhp2SvYZLRj8mAlT3zmoAMW

制作您自己的数据集

如果您想采用更酷的方法创建自己的数据集，可以按照这个“生成OCR微调数据集”的教程进行操作。教程链接：https://medium.com/dev-genius/generating-a-fine-tuning-dataset-for-an-ocr-engine-3509167bc8a1

将数据集转换为lmdb格式

Lmdb代表Lightning Memory-Mapped Database Manager，本质上是您可以用于训练AI模型的数据集的编码。您可以在lmdb文档中了解更多信息。制作了数据集之后，您应该有一个包含图像的文件夹，并且所有图像的标签（图像中的文本）在labels.txt文件中。您的文件夹应如下图所示，并且此文件夹应位于deep-text-recognition文件夹内：

文件夹在转换为lmdb格式之前

注意：确保文件夹中至少有10张图像，因为如果图像太少，运行后面教程中的训练脚本时可能会出现错误。

然后，您必须在deep-text-recognition-benchmark文件夹中的create_lmdb_dataset.py文件中进行一些更改：

由于我遇到了磁盘内存错误，因此我不得不将map_size变量设置得较低。我将map_size的值设置为1073741824，并且您可以看到我更改的行如下所示：

# OLD LINE
# ...
env = lmdb.open(outputPath, map_size=1099511627776)
# ...


# NEW LINE 
# ...
env = lmdb.open(outputPath, map_size=1073741824) 
# ...

当打开gtFile时，我还遇到了utf编码错误，因此我在删除utf-8编码时。然后，新行看起来像这样：

# OLD LINE
# ...
with open(gtFile, 'r', encoding='utf-8') as data:
# ...


# NEW LINE
# ...
with open(gtFile, 'r') as data:
# ...

最后，我还必须更改读取imagePath的方式：

# OLD LINE
# ...
imagePath, label = datalist[i].strip('\n').split('\t')
# ...


# NEW LINES
# ...
imagePath, label = datalist[i].strip('\n').split('.png')
imagePath += '.png'
# ...

我的完整create_lmdb_dataset.py文件看起来像这样（来自这个Git存储库，应用了上述更改）。

import fire
import os
import lmdb
import cv2


import numpy as np




def checkImageIsValid(imageBin):
    if imageBin is None:
        return False
    imageBuf = np.frombuffer(imageBin, dtype=np.uint8)
    img = cv2.imdecode(imageBuf, cv2.IMREAD_GRAYSCALE)
    imgH, imgW = img.shape[0], img.shape[1]
    if imgH * imgW == 0:
        return False
    return True




def writeCache(env, cache):
    with env.begin(write=True) as txn:
        for k, v in cache.items():
            txn.put(k, v)




def createDataset(inputPath, gtFile, outputPath, checkValid=True):
    """
    Create LMDB dataset for training and evaluation.
    ARGS:
        inputPath  : input folder path where starts imagePath
        outputPath : LMDB output path
        gtFile     : list of image path and label
        checkValid : if true, check the validity of every image
    """
    os.makedirs(outputPath, exist_ok=True)
    env = lmdb.open(outputPath, map_size=1073741824) #TODO Changed map size
    cache = {}
    cnt = 1


    with open(gtFile, 'r') as data: #TODO removed utf-8 encoding here since I have norwegian letters
        datalist = data.readlines()


    nSamples = len(datalist)
    print(nSamples)
    for i in range(nSamples):
        #TODO changed the way imagePath is found as well to match my usecase
        imagePath, label = datalist[i].strip('\n').split('.png')
        imagePath += '.png'


        # imagePath, label = datalist[i].strip('\n').split('\t')
        imagePath = os.path.join(inputPath, imagePath)


        # # only use alphanumeric data
        # if re.search('[^a-zA-Z0-9]', label):
        #     continue


        if not os.path.exists(imagePath):
            print('%s does not exist' % imagePath)
            continue
        with open(imagePath, 'rb') as f:
            imageBin = f.read()
        if checkValid:
            try:
                if not checkImageIsValid(imageBin):
                    print('%s is not a valid image' % imagePath)
                    continue
            except:
                print('error occured', i)
                with open(outputPath + '/error_image_log.txt', 'a') as log:
                    log.write('%s-th image data occured error\n' % str(i))
                continue


        imageKey = 'image-%09d'.encode() % cnt
        labelKey = 'label-%09d'.encode() % cnt
        cache[imageKey] = imageBin
        cache[labelKey] = label.encode()


        if cnt % 1000 == 0:
            writeCache(env, cache)
            cache = {}
            print('Written %d / %d' % (cnt, nSamples))
        cnt += 1
    nSamples = cnt-1
    cache['num-samples'.encode()] = str(nSamples).encode()
    writeCache(env, cache)
    print('Created dataset with %d samples' % nSamples)




if __name__ == '__main__':
    fire.Fire(createDataset)

在拥有正确的数据和正确的create_lmbd_dataset.py文件后，将文件夹移到deep-text-recognition-benchmark文件夹（您克隆的Git存储库）中。然后运行以下命令：

python .\create_lmdb_dataset.py

其中：

是包含图像和labels.txt的文件夹名称（在我的情况下是output）。
是.\output\labels.txt。
是将用于保存转换为lmdb格式的数据集的文件夹的名称（我称之为.\lmbd_output）。

对于我来说，上面的命令是这样的（确保在deep-text-recognition-benchmark文件夹中运行此命令）：

python .\create_lmdb_dataset.py .\output .\output\labels.txt .\lmbd_output

现在，您应该在deep-text-recognition-benchmark文件夹中有一个新文件夹，类似于下图。

文件夹转换为lmdb格式的数据

注意：在现有文件夹上运行命令不会覆盖现有文件夹。因此，请确保要么删除文件夹，要么为lmdb_output指定新名称（这是我挣扎了一段时间的事情，希望这个警告能确保您避免那个错误）。

检索预训练的OCR模型：

现在，您需要一个可以用您的数据集进行微调的预训练OCR模型。为此，您可以访问此Dropbox网站（https://drive.google.com/drive/folders/15WPsuPJDCzhp2SvYZLRj8mAlT3zmoAMW）并下载TPS-ResNet-BiLSTM-Attn.pth模型，然后将其放置在deep-text-recognition-benchmark文件夹中（我知道这看起来有点可疑，但这是deep-text-recognition-benchmark存储库告诉您如何做的方式。Dropbox不是我的，我在这里提供链接是因为在Git存储库text-recognition-benchmark中链接到了它）。

运行微调：

首先，如果您使用CPU（如果您使用GPU可以忽略此步骤），请注意。如果在CPU上运行，您可能会遇到错误，提示RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False。可以通过更改train.py文件中的第85和87行来修复此错误：

# OLD LINES
# ...
if opt.FT:
    model.load_state_dict(torch.load(opt.saved_model), strict=False)
else:
    model.load_state_dict(torch.load(opt.saved_model))
# ...




# NEW LINES (change to this if you are using CPU)
#
if opt.FT:
    model.load_state_dict(torch.load(opt.saved_model,map_location='cpu'), strict=False)
else:
    model.load_state_dict(torch.load(opt.saved_model,map_location='cpu'))
# ...

您还应该注意，如果数据中包含非字母数字字符，OCR 将不会运行微调。这意味着字符 A-Z 和 0-9，您可以在 Python 中使用以下行将所有非字母数字字符替换为空字符串：

new_word = re.sub("[^a-zA-Z]+", "", word)

如果您要创建自己的数据集，这一点尤其重要，但如果您使用我在 Google Drive 中提供的数据集，则不必担心这一点，尽管在使用 OCR 时要注意这一点很重要。

最后，您可以运行微调。要运行微调，可以使用以下命令：

python train.py --train_data lmdb_output --valid_data lmdb_output --select_data "/" --batch_ratio 1.0 --Transformation TPS --FeatureExtraction ResNet --SequenceModeling BiLSTM --Prediction Attn --batch_size 2 --data_filtering_off --workers 0 --batch_max_length 80 --num_iter 10 --valInterval 5 --saved_model TPS-ResNet-BiLSTM-Attn.pth

对命令的一些注释：

data_filtering_off 设置为True（只需使用该标志，无需给它变量）。我必须不使用数据过滤，因为启用过滤会导致无法训练样本。
workers 必须设置为0以避免错误。我认为这与多GPU设置有关，这也在deep-text-recognition-benchmark文件夹中的train.py文件中有提到。
batch_max_length 是训练数据集中任何文本的最大长度。如果使用不同的数据集，请随意更改此变量，但确保该变量至少与数据集中最长字符串的长度一样大，否则将收到错误。
对于本教程，我使用train_data和valid_data引用相同的文件夹。在实践中，我会创建一个包含训练数据集的文件夹，一个包含验证数据集的文件夹，并引用它们。
我将num_iter设置为10，以确保它可以工作。当进行实际模型微调时，自然必须将此变量设置得更高。
saved_model 是一个可选参数，但如果不设置它，将训练一个从头开始的模型。您可能不希望这样做（因为这将需要大量训练），因此将saved_model标志设置为从Dropbox下载的现有模型。

使用微调后的模型运行推理：

在微调模型后，您希望对其进行推理。为此，您可以使用以下命令：

python demo.py --Transformation TPS --FeatureExtraction ResNet --SequenceModeling BiLSTM --Prediction Attn --image_folder--saved_model

其中：

是包含要测试的PNG图像的文件夹。对我来说，这是: output

是您微调的模型的保存路径。对我来说，这是: .\saved_models\TPS-ResNet-BiLSTM-Attn-Seed1111\best_accuracy.pth（微调会将微调的模型保存在saved_models文件夹中）

我使用的命令是：

python demo.py --Transformation TPS --FeatureExtraction ResNet --SequenceModeling BiLSTM --Prediction Attn --image_folder output --saved_model .\saved_models\TPS-ResNet-BiLSTM-Attn-Seed1111\best_accuracy.pth

我用于base EasyOCR 模型的命令是：

python demo.py --Transformation None --FeatureExtraction VGG --SequenceModeling BiLSTM --Prediction CTC --image_folder output --saved_model .\saved_models\None-VGG-BiLSTM-CTC-Seed1111\best_accuracy.pth

该命令简单地输出模型对<要测试的图像路径>文件夹中的每个图像的预测和置信度分数，因此您可以通过自己查看图像并查看模型是否正确预测来检查模型的性能。这是模型性能的定性测试。

性能的定性测试：

为了查看微调是否起作用，我将对原始模型与我的微调模型在10个特定单词和数字上进行性能的定性测试。我测试的单词如下所示（垂直合并到一个图像中）。我通过添加倾斜和模糊使模型变得有些困难。

自制图像与 https://products.aspose.app/pdf/merger/png-to-png 合并。从上到下的单词是: “vanskeligheter”, “uvanligheter”, “skrekkeksempel”, “rosenborg”

考虑到我希望我的OCR能够读取挪威超市收据，我在这里放了一些挪威单词（这些单词来自http://openfoodfacts.com/，您可以在这篇文章中了解更多信息）。希望我的微调模型在这些单词上表现更好，因为原始OCR模型不习惯看到挪威单词，而我的微调模型已经在一些挪威单词上进行了训练。

每个图像中的文本是：

image0 -> vanskeligheter
image1 -> uvanligheter
image2 -> skrekkeksempel
image3 -> rosenborg

原始模型（未微调）的结果：

在定性测试中原始模型（未微调）的结果

微调模型的结果：

在定性测试中微调模型的结果

正如您所看到的，微调已经起作用，微调的模型在这个定性示例中取得了完美的结果。

性能的定量测试：

如果您想要进行更多定量测试，可以查看在微调期间显示的验证结果，或者您可以使用以下命令：

python test.py --eval_data--Transformation TPS --FeatureExtraction ResNet --SequenceModeling BiLSTM --Prediction Attn --saved_model--batch_max_length 70 --workers 0 --batch_size 2 --data_filtering_off

其中：

是包含lmdb格式测试数据的文件夹路径，即 lmdb_norwegian_data_test
是要测试性能的模型的路径，即 saved_models/TPS-ResNet-BiLSTM-Attn-Seed1111/best_accuracy.pth

因此，我使用的命令是：

python test.py --eval_data lmdb_norwegian_data_test --Transformation TPS --FeatureExtraction ResNet --SequenceModeling BiLSTM --Prediction Attn --saved_model saved_models/TPS-ResNet-BiLSTM-Attn-Seed1111/best_accuracy.pth --batch_max_length 70 --workers 0 --batch_size 2 --data_filtering_off

这将输出以百分比表示的准确性，即在测试数据集上OCR模型实现的准确性。在我的经验中，从Dropbox下载的模型需要一些训练。一开始，模型会做出完全没有意义的预测，但如果让它训练30分钟左右，您应该会看到一些改进。然后，我对上面显示的4个图像运行了test.py，并获得了以下结果，左边是旧模型（未微调），右边是新微调模型。您可以看到新的微调模型表现得更好。

旧模型（左边）实现了50%的准确性，新微调模型（右边）实现了100%的准确性

结论

您现在可以对光学字符识别（OCR）模型进行微调了。要对更大的模型产生显著影响并使其具有更好的泛化能力，您可能需要创建一个更大的数据集，您可以在本教程中了解相关信息，然后让模型进行一段时间的训练。最终，期望OCR模型在您的特定用例中表现更好。

· END ·

HAPPY LIFE

本文仅供学习交流使用，如有侵权请联系作者删除

远程登录docker执行shell报错input is not a terminal问题
背景最近要远程去k8sdocker里面获取信息，于是，写了一个如下的命令，执行完之后，报错了。ssh192.168.100.2sudocrictlexec-itxxx.docker/usr/bin/lscpu--online--extended错误信息如下：time=“2025-07-11T21:00:39+08:00”level=fatalmsg=“execingcommandincontain
试题公式ocr识别数据集
试题公式ocr识别数据集insurance_formula_latexhttps://github.com/LeeXYZABC/insurance_formula_latex.gitreference---
Python|扫描版词书转文字(PyPDF、OCR） NuageL pdf ocr python
心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：掌握PDF文件处理的神器：PythonPyPDF2库详解-CSDN博客写了一个功能，允许用户一次性输入多个页码范围：fromPyPDF2importPdfReader,PdfWriterdefspl
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
机器视觉在OCR（字符识别）检测中的应用
目前，对印刷品的检测工作一般采用人工方法进行质量检测，然后再由工作人员将成品和次品进行分类堆放。这样一来，不仅增加了工作人员的劳动强度，而且检测质量也难以得到保障。其次，则是效率低下，浪费时间成本。印品质量自动检测系统满足印刷企业对于产品质量控制的需求。系统采用自主研发的表面缺陷检测、色彩测量、快速建模等核心算法，广泛适用于包装印刷、标签印刷、商业印刷质量在线检测和印后终检。机器视觉用于印刷、包装
带印章的财务报表有什么工具可以解析？ TextIn智能文档云平台文档解析人工智能 textin
TextIn的文档解析工具可以解决财务报表的精准解析。不止印章，TextIn文档解析可以将文档中的复杂表格、手写笔记、图片印章等进行梳理，转换成大模型友好的内容格式（Markdown）。日常财务报表中常见手写签名、批注及各类印章覆盖，对传统OCR识别构成巨大挑战。TextIn文档解析具备强大的图像处理与文字识别能力，能有效分离背景印章干扰，清晰辨识覆盖文字，并对潦草、连笔的手写体保持较高的识别准确
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
环形文字识别实例：使用OpenCV和OCR的C/C++实现 TechPr opencv ocr c语言 C/C++
环形文字识别实例：使用OpenCV和OCR的C/C++实现在本篇文章中，我们将介绍如何使用OpenCV和OCR技术来实现环形文字的识别。我们将使用C/C++语言编写源代码，并通过一步一步的解释来帮助您理解实现的过程。导入必要的库首先，我们需要导入所需的库。我们将使用OpenCV来处理图像，以及OCR库来进行文字识别。以下是所需的头文件：#include#include#
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
证件阅读机在金融银行的应用电子护照杨健辉智能硬件人工智能 ocr
证件阅读机（也称为“证件扫描仪”或“OCR阅读器”）在金融银行领域有广泛的应用，主要用于快速、准确地识别和验证客户身份证件（如身份证、护照、驾驶证等），以提高业务办理效率和安全性。主要应用场景开户/办卡：自动读取身份证、护照信息，减少人工录入错误。大额交易/转账：验证客户身份，防止冒用他人证件。贷款/信用卡申请：快速采集客户信息，提高审核效率。反洗钱（AML）：自动比对证件真伪，防范欺诈风险。VI
护照阅读器简介电子护照杨健辉人工智能智能硬件
护照阅读器简介护照阅读器（PassportReader）是一种专用设备，用于快速、准确地读取护照、身份证、签证等旅行证件的机读区（MRZ）和芯片（ePassport）信息，广泛应用于出入境管理、机场安检、酒店登记、金融开户等场景。1.护照阅读器的核心功能（1）OCR识别（光学字符识别）自动识别护照、身份证、签证等证件上的机读区（MRZ）信息，包括姓名、护照号、国籍、出生日期、有效期等。支持多语言（
智能财报OCR识别录入，破解财报分析困局，重塑金融风控新范式 kevin 1 ocr 人工智能大数据
在金融数字化转型的浪潮中，数据已成为驱动业务决策与风险管理的核心资产。然而，海量的非结构化财务报表数据，正成为制约金融机构运营效率和风控精度的关键瓶颈。本文旨在剖析传统财报识别与分析模式的深层挑战，并探讨以AI为核心的智能解决方案如何赋能行业，实现从数据处理到决策智能的范式跃迁。一、效能瓶颈：传统财报处理的三重制约对于银行、证券、信托等金融机构而言，高效、精准的财报分析是信贷审批、投资决策和合规审
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
PaddleOCR 3.0全面解析：五大核心能力与实战应用指南经优英
PaddleOCR3.0全面解析：五大核心能力与实战应用指南PaddleOCRAwesomemultilingualOCRtoolkitsbasedonPaddlePaddle(practicalultralightweightOCRsystem,support80+languagesrecognition,providedataannotationandsynthesistools,suppor
PDF处理控件Spire.PDF教程：在Java中读取PDF，提取文本、图片和表格 CodeCraft Studio pdf java 国产化 Spire.pdf 文档处理
在数据驱动的现代开发中，高效处理PDF文档已成为Java开发者不可或缺的核心能力。无论是处理各类发票扫描件、业务分析报告，还是包含丰富图表的技术文档，掌握Java版的PDF解析技术都将大幅提升数据处理效率，充分释放文档中的商业价值。本指南将介绍如何使用Spire.PDFforJava读取PDF文档，涵盖从可搜索的PDF提取文本、表格和图片，以及通过OCR技术从扫描版PDF中读取文本。Spire.P
两个场景的车辆相似度评估并画图（弗雷歇距离）
疑问：是否有必要normalize？（待解决）importmathimportnumpyasnpimportpandasaspdimporttorchfrommatplotlibimportpyplotaspltfromshapesimilarityimportshape_similarity,procrustes_normalize_curve,find_procrustes_rotation_
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
K8S 集群配置踩坑记录 KKKingWei kubernetes 容器云原生
系统版本：Ubuntu22.04.5-live-server-amd64K8S版本：v1.28.2Containerd版本：1.7.27kubeletlogs====================kuberuntime_sandbox.go:72]"Failedtocreatesandboxforpod"err="rpcerror:code=Unknowndesc=failedtocreatec
Linux与Windows切换使用Obsidian，出现 unexplained changes 问题的解决 CS-Polaris 业务能力技术栈 git
如果你的Obsidian文档在Linux与Windows间来回切换，可能会涉及到文件的保存换行符问题，但这样的话就容易导致一个问题，那就是内容无差异，Obsidian却提示unexplainedchanges，Windows系统下的解决方法如下，找到.git/config文件，配置[core]bare=falseautocrlf=falsetrustctime=false一、参考文章或视频链接[1
Power Platform VSCode扩展教程褚知茉Jade
PowerPlatformVSCode扩展教程powerplatform-vscodeThePowerPlatformVSCodeextensionmakesiteasytomanagePowerPlatformenvironmentsandallowsthedevelopertocreate,buildanddeployPowerPlatformsolutions,packagesandport
ppocrv5训练参数设置完整配置(实测在2080ti可成功运行且f1＞85%)
Global:model_name:PP-OCRv5_server_det#Tousestaticmodelforinference.debug:falseuse_gpu:trueepoch_num:&epoch_num500log_smooth_window:20print_batch_step:5save_model_dir:./output/PP-OCRv5_server_detsave_e
小数据量在paddleocrv4/5训练精度不高的原因探讨
问题：训练集有69张，验证集有48张,每张图的尺寸为2592*1396或接近这个尺寸，每张图约有50到60个目标,且每张图有较多的密集小目标，这些目标区域分别是一些文字或字母或数字。电脑配置显卡是2080ti，运行内存是32g，cpu是9700k。以上条件下，在pp-ocrv3上采用ch_pp_ocrv3_det_student.yml配置并采用ch_pp_ocrv3_det_distill_tr
paddleOCR模型的安装和使用九日卯贝 paddle ocr
paddleOCR仓库：https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file文档：https://paddlepaddle.github.io/PaddleOCR/main/quick_start.html#2-paddleocr环境安装python-mpipinstallpaddlepaddle-gpu==3.0.0b1-iht
【Python】Pytesseract报错不能用的解决方法（Python图象文字识别OCR库）南工说焊接编程语言 python 开发语言
感谢@#姚大姚优秀笔记，解决了99%问题（文末放出原文链接及原文截图）问题点记录及解决：Pytesseract库安装及使用步骤概括：pip安装pytesseract→下载安装Tesseract-OCR配置pytesseract.py→tesseract_cmd变量定义①用户变量添加、②系统环境变量Path添加变量名在.py程序使用时，切记配置Tesseract路径，否则会错误！importpyte
浅析基于深度学习算法的日语OCR技术原理及其应用场景 AI人工智能+ TEL18600524535 ocr 文字识别人工智能
在全球数字化进程加速的今天，日语作为世界第九大使用语言，其文字处理的自动化需求日益凸显，日语OCR技术应运而生。中科逸视日文OCR技术是一款基于先进人工智能技术的专业光学字符识别(OCR)解决方案，专门针对日语文本的数字化需求设计开发。能够将纸质文档、图片中的日文内容快速准确地转换为可编辑、可搜索的电子文本，大幅提升日文资料的处理效率，为企业国际化运营和个人日语学习提供强有力的技术支持。技术原理中
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

OCR升级版 — 微调EasyOCR实战

你可能感兴趣的:(ocr)