颐和园

Tesseract OCR iOS 教程

原文：Tesseract OCR Tutorial for iOS
作者：Lyndsey Scott
译者：kmyhy

更新说明：本教程由 Lyndsey Scott 更新为 Swift 4、iOS 11 和 Xcode 9。原文作者是 Lyndsey Scott。

你肯定知道 OCR……它通常用于处理扫描文档，手写文稿，以及在 Google 的 Translate app 所用的实景翻译技术。今天你将学习如何在你自己的 app 中利用 Tesseract 来实现它。听起来很不错，是吗？

但是……什么是 OCR？

光学文字识别（OCR）是一种从图片中抽取数字化字符的过程。当抽取完成后，用户就可以将这些文字用于编辑文档、文字搜索、压缩等等。

在本教程中，你将用 OCR 去追求你的真爱。你将使用一个由 Google 维护的开源 OCR 引擎 Tesseract 创建一个名为 Love In A Snap 的 app。这个 app 允许你用一首爱情诗的图片作为素材，将原作者的女神/男神替换为你想追求的对象。好棒！准备让人们大吃一惊吧。

开始

从这里下载开始项目，并解压缩。

这里面有几个文件夹：

LoveInASnap: 开始项目。
Images:爱情诗图片。
tessdata: Tesseract 的语言包。

打开 LoveInASnap\LoveinASnap.xcodeproj，build & run，随意点点，感受一下 UI。目前的 app 很简单，但你会在选中或反选文本框时看到会上移下移。这是为了防止键盘遮住文字框和按钮。

开始编写代码

打开 ViewController.swift 看一下代码。你会看到几个 @IBOutlet 属性和 @IBAction 方法已经连接到了 Main.storyboard。在这些 @IBAction 中，view.endEditing(true) 用于释放键盘。在 sharePoen(_:) 方法中这样做是因为当键盘弹出时，分享按钮会被遮挡住。

在这些 @IBAction 之后，你会看到一个 performImageRecognition(_:)。这是 Tesseract 进行图片识别的地方。

下面两个函数用于将视图上移、下移：

func moveViewUp() {
  if topMarginConstraint.constant != originalTopMargin {
    return
  }  
  topMarginConstraint.constant -= 135
  UIView.animate(withDuration: 0.3) {
    self.view.layoutIfNeeded()
  }
}

func moveViewDown() {
  if topMarginConstraint.constant == originalTopMargin {
    return
  }
  topMarginConstraint.constant = originalTopMargin
  UIView.animate(withDuration: 0.3) {
    self.view.layoutIfNeeded()
  }
}

当键盘弹出时，moveViewUp 将 View controller 的 view 的 top 约束向上移。当键盘收起，moveViewDown 将控制器视图的 top 约束设置回原来的值。

在故事板中，UITextField 的委托设置为 ViewController。在 UITextFieldDelegate 扩展中有这几个方法：

// MARK: - UITextFieldDelegate
extension ViewController: UITextFieldDelegate {
  func textFieldDidBeginEditing(_ textField: UITextField) {
    moveViewUp()
  }

  func textFieldDidEndEditing(_ textField: UITextField) {
    moveViewDown()
  }
}

当用户开始编辑 text field 时，调用 moveViewUp。当用户结束编辑 text field时，调用 moveViewDown。

尽管上述函数对于 app UX 来说必不可少，但跟本文毫不相关。因为它们是已经写好的，我们可以直接从真正感兴趣的代码入手。

Tesseract 的限制

Tesseract OCR 非常强大，但也有一些限制：

和别的 OCR 引擎不同（比如美国邮政服务用于整理邮件的 OCR），Tesseract 无法识别手写体。实际上，它总共只支持 64 中字体。
可以通过对图像进行预处理来提升 Tesseract 的性能。你必须通过对图片进行缩放、增加颜色对比度、对文本水平对齐来优化处理结果。
最后，Tesseract OCR 只支持 Linux、Windows、和 Mac OS X。

呃？有 Linux、Windows 和 Mac OS X，没有 iOS？幸运的是，gali8 对 Tesseract OCR 进行了一个 O-C 的封装，你可以在 Swift 和 iOS 中使用。

嘁！:]

安装 Tesseract

根据 Joshua Greene 写的一篇教程如何在 Swift 中使用 CocoaPods 所描述的，你可以用以下步骤安装 CocoaPods 和 Tesseract 框架。

要安装 CocoaPods，可以在终端中使用命令：

sudo gem install cocoapods

当问到计算机密码时，请输入正确的密码。

要在项目中安装 Tesseract，用 cd 命令转到 LoveInASnap 项目所在的目录。例如，如果你的开始项目位于桌面，请使用：

cd ~/Desktop/OCR_Tutorial_Resources/LoveInASnap

然后，用下列命令在这个文件夹下生成一个 Podfile 文件：

pod init

用文本编辑器打开 Podfile 文件，编辑内容为：

use_frameworks!
platform :ios, '11.0'

target 'LoveInASnap' do
  use_frameworks!
  pod 'TesseractOCRiOS'
end

这会告诉 CocoaPods 你想在项目中使用 TesseractOCRiOS 框架。最后，保存、关闭 Podfiel，进入终端，保持之前的工作目录不变，输入命令：

pod install

就是这样！当一段长长的输出之后，然后你会看到 “Please close any current Xcode sessions and use ‘LoveInASnap.xcworkspace’ for this project from now on.” 。关闭 LoveinASnap.xcodeproj，在 Xcode 中打开OCR_Tutorial_Resources\LoveInASnap\LoveinASnap.xcworkspace 。

在 Xcode 中设置 Tesseract

将 tessdata 文件夹，也就是 Tesseract 的语言包，从 Finder 中拖进 Xcode 项目的 Supporting Files 文件夹下。确认勾选 Copy items 选项，和 Create folder 选项，然后勾上 LoveInASnap，点击 Finish。

注意：确认在 Build Phases 的 Copy Bundlle Resources 下面有 tessdata 一项，否者运行时会报错，说在 tessdata 的父目录中未设置 TESSDATA_PREFIX 环境变量。

返回项目导航器，点击 LoveInASnap 项目文件，在 Targets 下面，选择 LoveInASnap，打开 General 标签页，找到 Linked Frameworkds and Libraries 选项。

这里只应该有一个文件存在：Pods_LoveInASnap.framework，也就是你刚刚添加的那个 pod。点击 + 按钮，添加 libstadc++.dylib、CoreImage.framework 和 TesseractOCR.framework。

之后，你的 Linked Frameworks and Libraries 应该变成：

差不多了！还剩一个步骤，我们就可以开始编写代码了……

在 LoveInASnap target 的 Build Settings 中，找到 C++ Standard Library，将它设置为 Compiler Default。然后找到 Enable Bitcode，将它设置为 NO。

类似地，回到左边的项目导航器中，选择 Pods 项目，找到 TesseractOCRiOS target 的 Build Settings，找到 C++ Standard Library 将它设置为 Compiler Default。然后找到 Enable Bitcoe 将它设置为 NO。

就是这样了！Build & run，确保能够编译。你会在左边的 issue 导航器中看到一些警告，但不要理它们。

好了没有？现在你终于可以开始有意思的部分了！

创建 Image Picker

打开 ViewController.swift 在类定义之后添加扩展:

// 1
// MARK: - UINavigationControllerDelegate
extension ViewController: UINavigationControllerDelegate {
}

// MARK: - UIImagePickerControllerDelegate
extension ViewController: UIImagePickerControllerDelegate {
  func presentImagePicker() {
    // 2
    let imagePickerActionSheet = UIAlertController(title: "Snap/Upload Image",
                                                   message: nil, preferredStyle: .actionSheet)
    // 3
    if UIImagePickerController.isSourceTypeAvailable(.camera) {
      let cameraButton = UIAlertAction(title: "Take Photo",
                                       style: .default) { (alert) -> Void in
                                        let imagePicker = UIImagePickerController()
                                        imagePicker.delegate = self
                                        imagePicker.sourceType = .camera
                                        self.present(imagePicker, animated: true)
      }
      imagePickerActionSheet.addAction(cameraButton)
    }
    // Insert here
  }
}

代码解释如下：

将 ViewController 声明为实现 UINavigationControllerDelegate 和 UIImagePickerController 协议，这是使用 UIImagePickerController 时必须实现的两个协议。
在 presentImagePicker() 方法中，创建一个 UIAlertController 用于向用户显示一个 action sheet 以便获取用户的选择。
如果设备拥有摄像头，在 imagePickerActionSheet 中添加一个 Take Photo 按钮。这个按钮会用 .camera 作为 sourceType 来创建和呈现 UIImagePickerController。

为了完成这个函数，请将 // Insert here 替换为：

// 1
let libraryButton = UIAlertAction(title: "Choose Existing",
  style: .default) { (alert) -> Void in
    let imagePicker = UIImagePickerController()
    imagePicker.delegate = self
    imagePicker.sourceType = .photoLibrary
    self.present(imagePicker, animated: true)
}
imagePickerActionSheet.addAction(libraryButton)
// 2
let cancelButton = UIAlertAction(title: "Cancel", style: .cancel)
imagePickerActionSheet.addAction(cancelButton)
// 3
present(imagePickerActionSheet, animated: true)

代码解释：

在 imagePickerActionSheet 中添加 Choose Existing 按钮。这个按钮用 .photoLibrary 作为 sourceType 来创建和呈现 UIImagePickerController。
添加一个 Cancel 按钮。
呈现 UIAlertController。

然后，在 takePhoto(_:) 方法中添加：

presentImagePicker()

当你点击 Snap/Upload Image 时，这会显示一个 Image picker。

如果你用真机编译，并企图拍照，app 会崩溃。因为 app 没有向用户获取到相机访问权限，因此你还需要添加必要的权限声明字段。

声明访问相册权限

在项目导航器中，找到 LoveInASnap 的 Info.plist 文件。在 Information Property List 上面点击 + 按钮，添加 Privacy – Photo Library Usage Description 和 Privacy – Camera Usage Description 两个 key。将它们的值填写为要显示给用户的内容。

Build & run。点击 Snap/Upload Image，你将看到 UIAlertController 显示出来：

注意：如果你使用模拟器，因为没有真实摄像头，你将无法看到 Take Photo 这个选项。

如果你点击 Take Photo，然后授权 app 访问相机，你就可以进行拍照。如果你选择 Choose Existing 然后授权 app 访问相册，你就可以从中选择一张图片。

选择图片之后，app 目前是不会做任何动作的。你还需要在 Tesseract 处理图片之前做一些准备工作。

在 Tesseract 的限制中提到，为了优化 OCR 的结果，你必须将图片尺寸限制在一定大小。如果图片太大或者太小，Tesseract 可能返回错误结果或者出现 EXC_BAD_ACCESS 而崩溃。

因此你必须写一个修改图片大小但宽高比保持不变的方法。

维持纵横比缩放图片

图片的纵横比是指它的宽度和高度的比例。因此，在减少图片的尺寸同时不改变纵横比，你必须将这个宽高比作为一个常量。

如果你知道原始图片的宽和高，那么只要你知道最终图片的宽或高中的任意一个，就能够应用下面的纵横比公式：

因此，height2 = height1/width1 * width2，width2 = width1/height1 * height2。你可以在缩放方法中用这两个公式来保持图片的纵横比不变。

打开 ViewController.swift 在 UIImage 扩展中添加方法:

// MARK: - UIImage extension
extension UIImage {
  func scaleImage(_ maxDimension: CGFloat) -> UIImage? {

    var scaledSize = CGSize(width: maxDimension, height: maxDimension)

    if size.width > size.height {
      let scaleFactor = size.height / size.width
      scaledSize.height = scaledSize.width * scaleFactor
    } else {
      let scaleFactor = size.width / size.height
      scaledSize.width = scaledSize.height * scaleFactor
    }

    UIGraphicsBeginImageContext(scaledSize)
    draw(in: CGRect(origin: .zero, size: scaledSize))
    let scaledImage = UIGraphicsGetImageFromCurrentImageContext()
    UIGraphicsEndImageContext()

    return scaledImage
  }
}

scaleImage(_:) 方法会获取图片的高或者宽——比较两者的较大者为准——然后将它的大小设置为 maxDimension 参数。然后，为了维持图片的纵横比，根据需要缩放另一边即可。然后将原图重新在新 frame 中重绘。最后，返回缩放后的图片。

现在，你必须写一个方法获取用户选择的图片。

获取图片

在 UIImagePickerControllerDelegate 扩展中在 presentImagePicker() 下面添加方法：

// 1
func imagePickerController(_ picker: UIImagePickerController,
  didFinishPickingMediaWithInfo info: [String : Any]) {
  // 2
  if let selectedPhoto = info[UIImagePickerControllerOriginalImage] as? UIImage, 
    let scaledImage = selectedPhoto.scaleImage(640) {
    // 3
    activityIndicator.startAnimating()
    // 4
    dismiss(animated: true, completion: {
      self.performImageRecognition(scaledImage)
    })
  }
}

这个方法解释如下：

imagePickerController(_:didFinishPickingMediaWithInfo:) 是 UIImagePickerControllerDelegate 协议中的方法。当用户选择好图片，这个方法会在一个 info 字典中返回这张图片的信息。
将图片通过 UIImagePickerControllerOriginalImage 键从 info 字典中取出。将图片缩放至宽高小于 640。（根据经验，640 的识别结果最佳）同时对缩放后的图片进行解包操作。
让 activity indicator 开始显示，表示 Tesseract 正在工作。
解散 UIImagePicker，将图片传递给 performImageRecognition 方法处理。

Build & run，点击 Snap/upload Image，选择一张图片。activity indicator 将开始旋转。

别被它迷花了眼！还有更多代码要写。

我们显示了 activity indicator，但它到底代表什么意思？闲话少说（请来点掌声），你终于可以开始使用 Tesseract OCR 了！

使用 Tesseracdt OCR

打开 ViewController.swift 在 import UIKit 下添加:

import TesseractOCR

这将导入 Tesseract 框架，并允许你在这个文件中使用它。

然后，在 performImageRecognition(_:) 方法一开始添加：

// 1
if let tesseract = G8Tesseract(language: "eng+fra") {
  // 2
  tesseract.engineMode = .tesseractCubeCombined
  // 3
  tesseract.pageSegmentationMode = .auto
  // 4
  tesseract.image = image.g8_blackAndWhite()
  // 5
  tesseract.recognize()
  // 6
  textView.text = tesseract.recognizedText
}
// 7
activityIndicator.stopAnimating()

OCR 开始发挥作用了！整个方法分为以下几个部分：

创建一个 G8Tesseract 对象，传入 eng+fra 参数，即英语和法语语言包。本教程中所用的诗中用到了一些法语（罗曼蒂克），因此添加法语能让 Tesseract 认识其中的法语单词，并形成合体的字符。
有 3 个 OCR 模式：.tesseractOnly 最快，但准确率是最差的。.cubeOnly，稍慢但准确率更高，因为它使用了更多的人工智能。.tesseractdCubeCombined 集合了 .tesseractOnly 和 .cubeOnly，这也是其中最慢的一种模式。在本教程中，使用了.tesseractCubeCombined，因为它的准确率最高。
Tesseract 默认要处理的文本处于同一文本块中。因为例子中使用的诗包含了段落换行符，它不是同一文本块。将 pageSegmentationMode 设置为 .auto 允许 Tesseract 自动识别出段落之间的分隔。
当文本和背景之间的对比度越高，识别的结果越好。用 Tesseract 内置的 g8_blackAndWhite 滤镜降低颜色饱和度，增加对比度，降低曝光度。
进行光学文字识别。
将识别出的文字放到 textview 里。
移除 activity indicator，表示 OCR 过程结束。

是时候测试一下代码，看看什么结果了！

处理第一张图片

在示例图片中有这样一张图片 OCR_Tutorial_Resources\Images\Lenore.png:

Lenore.png 包含了一首爱情诗，是寄给 “Lenore” 的，但只需要稍微编辑下，就能用于送给你的女神/男神！:]

如果在有相机的设备上运行 app，你可以拍下这首诗，然后进行 OCR。但出于本文演示目的，将图片添加到设备的相机胶卷中，你就能够上传它了。这样，你可以避免光源不均匀、文字倾斜、打印不清晰等问题。

如果你使用模拟器，将图片文件拖进模拟器，即可将它添加到你的相机胶卷。

Build & run，选择 Snap/Upload Image，然后选择 Choose Existing。同意 app 访问你的相册，然后选择这张图片。

然后……看到了吗！几秒钟之后，文字就识别出来并显示到了 text view 中。

只不过，如果你的女神/男神名字并不叫做 Lenore，他或者她并不会买账。因为在诗中，Lenore 的使用十分频繁，要将它替换成你的心上人是一个不小的工作。

你说什么？是的，你可以写一个函数，查找并替换这个词。这想法太妙了！下一节将告诉你怎么做。

查找替换文本

现在 OCR 引擎已经把图片转换成文字，你可以把它看成普通的字符串对待。

还记得吗？ViewController.swift 中有一个 swapText 函数，当 swap 按钮被点时会触发这个函数。这就简单了，是不？

找到 swapText(_:)，在 view.endEditing(true) 一句下面添加：

// 1
guard let text = textView.text,
  let findText = findTextField.text,
  let replaceText = replaceTextField.text else {
    return
}

// 2
textView.text =
  text.replacingOccurrences(of: findText, with: replaceText)
// 3
findTextField.text = nil
replaceTextField.text = nil

这段代码很简单，让我们来简单过一下：

判断 textView、findTextField 和 replaceTextField 中内容不为空时，才调用交换方法。
在 text view 中，将 findTextField 中指定的文本替换为 replaceTextField 中的内容。
替换完成，清除 findTextField 和 replaceTextField 中的内容。

Build & run，再次上传示例图片，让 Tesseract 开始工作。当文字显示出来后，在 Find this … 中输入 Lenore ，在 Repace with … 中输入你的男神/女神的名字（注意，查找替换是大小写敏感的）。点击 swap 按钮，完成替换。

变，变，变-你创作了一首为情人量身定制的爱情诗！

你还可以替换其它单词，以迸发出你自己的艺术火花！

太好了！这么有诗意和勇气的作品不应该只呆在你的手机里。你还需要一个方法将你的大作分享给全世界。

分享成果

要分享你的诗，请在 sharePeom() 中编写代码：

// 1
if textView.text.isEmpty {
  return
}
// 2
let activityViewController = UIActivityViewController(activityItems:
  [textView.text], applicationActivities: nil)
// 3
let excludeActivities:[UIActivityType] = [
  .assignToContact,
  .saveToCameraRoll,
  .addToReadingList,
  .postToFlickr,
  .postToVimeo]
activityViewController.excludedActivityTypes = excludeActivities
// 4
present(activityViewController, animated: true)

分别解释如下：

如果 text view 是空的，返回。
否则，用 text view 中的文本初始化一个 UIActivityViewController。
UIActivityViewController 的 activity 类型默认是一个很长的数组。这里我们将不相关的类型全部排除。
呈现 UIActivityViewController 允许用户将他们的创作按照希望的方式进行分析。

再次 build & run。上传示例图片，查找替换文字。然后欣赏完你的诗作之后，点击信封，会显示分享选项，然后将你的诗歌按照你想要的方式分享出去。

这样你的 Love In A Snap 就完成了——你肯定能够获得对方的青睐。

你可以像我一样，将 Lenore 换掉，将诗歌发送到你的收件箱，然后独自饮下一杯葡萄酒，带着惺忪的眼神，假装这封 email 是来自于女王陛下，为了一次特别大气的、充满浪漫、舒适、美妙和神秘的夜晚……但还是只有我一个……

接下来做什么

从这里下载完成后的开始项目。

你可以看看 GitHub 上的 Tesseract 的 iOS 封装：https://github.com/gali8/Tesseract-OCR-iOS。在 Google 的 Tesseract OCR 网站可以下载其他语言包（请使用 3.03 版本以上的语言包，以便和当前框架兼容）。

在后续研究 OCR 的时候，记住这点：“输入的质量越差，输出的结果就越差。”最简单的提升输出质量的方法是改善输入的质量，比如：

对图片进行预处理。
对图片反复进行滤镜处理，比较结果上的差异，然后得到最准确的输出。
创建自己的 AI 逻辑，比如神经网络。
用 Tesseract 自己的训练工具帮助你的程序从错误中的学习，并即时改进成功率。

通过联合多种策略，你会得到最好的结果，因此请尝试各种手段并找出最佳工作方式。

最后，如果你对本文、Tesseract 或者 OCR 有任何问题或建议，请在下面留言。

你可能感兴趣的:(OCR,Tesseract,iPhone开发)

远程登录docker执行shell报错input is not a terminal问题
背景最近要远程去k8sdocker里面获取信息，于是，写了一个如下的命令，执行完之后，报错了。ssh192.168.100.2sudocrictlexec-itxxx.docker/usr/bin/lscpu--online--extended错误信息如下：time=“2025-07-11T21:00:39+08:00”level=fatalmsg=“execingcommandincontain
试题公式ocr识别数据集
试题公式ocr识别数据集insurance_formula_latexhttps://github.com/LeeXYZABC/insurance_formula_latex.gitreference---
Python|扫描版词书转文字(PyPDF、OCR） NuageL pdf ocr python
心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：掌握PDF文件处理的神器：PythonPyPDF2库详解-CSDN博客写了一个功能，允许用户一次性输入多个页码范围：fromPyPDF2importPdfReader,PdfWriterdefspl
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
机器视觉在OCR（字符识别）检测中的应用
目前，对印刷品的检测工作一般采用人工方法进行质量检测，然后再由工作人员将成品和次品进行分类堆放。这样一来，不仅增加了工作人员的劳动强度，而且检测质量也难以得到保障。其次，则是效率低下，浪费时间成本。印品质量自动检测系统满足印刷企业对于产品质量控制的需求。系统采用自主研发的表面缺陷检测、色彩测量、快速建模等核心算法，广泛适用于包装印刷、标签印刷、商业印刷质量在线检测和印后终检。机器视觉用于印刷、包装
带印章的财务报表有什么工具可以解析？ TextIn智能文档云平台文档解析人工智能 textin
TextIn的文档解析工具可以解决财务报表的精准解析。不止印章，TextIn文档解析可以将文档中的复杂表格、手写笔记、图片印章等进行梳理，转换成大模型友好的内容格式（Markdown）。日常财务报表中常见手写签名、批注及各类印章覆盖，对传统OCR识别构成巨大挑战。TextIn文档解析具备强大的图像处理与文字识别能力，能有效分离背景印章干扰，清晰辨识覆盖文字，并对潦草、连笔的手写体保持较高的识别准确
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
环形文字识别实例：使用OpenCV和OCR的C/C++实现 TechPr opencv ocr c语言 C/C++
环形文字识别实例：使用OpenCV和OCR的C/C++实现在本篇文章中，我们将介绍如何使用OpenCV和OCR技术来实现环形文字的识别。我们将使用C/C++语言编写源代码，并通过一步一步的解释来帮助您理解实现的过程。导入必要的库首先，我们需要导入所需的库。我们将使用OpenCV来处理图像，以及OCR库来进行文字识别。以下是所需的头文件：#include#include#
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
证件阅读机在金融银行的应用电子护照杨健辉智能硬件人工智能 ocr
证件阅读机（也称为“证件扫描仪”或“OCR阅读器”）在金融银行领域有广泛的应用，主要用于快速、准确地识别和验证客户身份证件（如身份证、护照、驾驶证等），以提高业务办理效率和安全性。主要应用场景开户/办卡：自动读取身份证、护照信息，减少人工录入错误。大额交易/转账：验证客户身份，防止冒用他人证件。贷款/信用卡申请：快速采集客户信息，提高审核效率。反洗钱（AML）：自动比对证件真伪，防范欺诈风险。VI
护照阅读器简介电子护照杨健辉人工智能智能硬件
护照阅读器简介护照阅读器（PassportReader）是一种专用设备，用于快速、准确地读取护照、身份证、签证等旅行证件的机读区（MRZ）和芯片（ePassport）信息，广泛应用于出入境管理、机场安检、酒店登记、金融开户等场景。1.护照阅读器的核心功能（1）OCR识别（光学字符识别）自动识别护照、身份证、签证等证件上的机读区（MRZ）信息，包括姓名、护照号、国籍、出生日期、有效期等。支持多语言（
智能财报OCR识别录入，破解财报分析困局，重塑金融风控新范式 kevin 1 ocr 人工智能大数据
在金融数字化转型的浪潮中，数据已成为驱动业务决策与风险管理的核心资产。然而，海量的非结构化财务报表数据，正成为制约金融机构运营效率和风控精度的关键瓶颈。本文旨在剖析传统财报识别与分析模式的深层挑战，并探讨以AI为核心的智能解决方案如何赋能行业，实现从数据处理到决策智能的范式跃迁。一、效能瓶颈：传统财报处理的三重制约对于银行、证券、信托等金融机构而言，高效、精准的财报分析是信贷审批、投资决策和合规审
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
PaddleOCR 3.0全面解析：五大核心能力与实战应用指南经优英
PaddleOCR3.0全面解析：五大核心能力与实战应用指南PaddleOCRAwesomemultilingualOCRtoolkitsbasedonPaddlePaddle(practicalultralightweightOCRsystem,support80+languagesrecognition,providedataannotationandsynthesistools,suppor
PDF处理控件Spire.PDF教程：在Java中读取PDF，提取文本、图片和表格 CodeCraft Studio pdf java 国产化 Spire.pdf 文档处理
在数据驱动的现代开发中，高效处理PDF文档已成为Java开发者不可或缺的核心能力。无论是处理各类发票扫描件、业务分析报告，还是包含丰富图表的技术文档，掌握Java版的PDF解析技术都将大幅提升数据处理效率，充分释放文档中的商业价值。本指南将介绍如何使用Spire.PDFforJava读取PDF文档，涵盖从可搜索的PDF提取文本、表格和图片，以及通过OCR技术从扫描版PDF中读取文本。Spire.P
两个场景的车辆相似度评估并画图（弗雷歇距离）
疑问：是否有必要normalize？（待解决）importmathimportnumpyasnpimportpandasaspdimporttorchfrommatplotlibimportpyplotaspltfromshapesimilarityimportshape_similarity,procrustes_normalize_curve,find_procrustes_rotation_
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
K8S 集群配置踩坑记录 KKKingWei kubernetes 容器云原生
系统版本：Ubuntu22.04.5-live-server-amd64K8S版本：v1.28.2Containerd版本：1.7.27kubeletlogs====================kuberuntime_sandbox.go:72]"Failedtocreatesandboxforpod"err="rpcerror:code=Unknowndesc=failedtocreatec
Linux与Windows切换使用Obsidian，出现 unexplained changes 问题的解决 CS-Polaris 业务能力技术栈 git
如果你的Obsidian文档在Linux与Windows间来回切换，可能会涉及到文件的保存换行符问题，但这样的话就容易导致一个问题，那就是内容无差异，Obsidian却提示unexplainedchanges，Windows系统下的解决方法如下，找到.git/config文件，配置[core]bare=falseautocrlf=falsetrustctime=false一、参考文章或视频链接[1
Power Platform VSCode扩展教程褚知茉Jade
PowerPlatformVSCode扩展教程powerplatform-vscodeThePowerPlatformVSCodeextensionmakesiteasytomanagePowerPlatformenvironmentsandallowsthedevelopertocreate,buildanddeployPowerPlatformsolutions,packagesandport
ppocrv5训练参数设置完整配置(实测在2080ti可成功运行且f1＞85%)
Global:model_name:PP-OCRv5_server_det#Tousestaticmodelforinference.debug:falseuse_gpu:trueepoch_num:&epoch_num500log_smooth_window:20print_batch_step:5save_model_dir:./output/PP-OCRv5_server_detsave_e
小数据量在paddleocrv4/5训练精度不高的原因探讨
问题：训练集有69张，验证集有48张,每张图的尺寸为2592*1396或接近这个尺寸，每张图约有50到60个目标,且每张图有较多的密集小目标，这些目标区域分别是一些文字或字母或数字。电脑配置显卡是2080ti，运行内存是32g，cpu是9700k。以上条件下，在pp-ocrv3上采用ch_pp_ocrv3_det_student.yml配置并采用ch_pp_ocrv3_det_distill_tr
paddleOCR模型的安装和使用九日卯贝 paddle ocr
paddleOCR仓库：https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file文档：https://paddlepaddle.github.io/PaddleOCR/main/quick_start.html#2-paddleocr环境安装python-mpipinstallpaddlepaddle-gpu==3.0.0b1-iht
【Python】Pytesseract报错不能用的解决方法（Python图象文字识别OCR库）南工说焊接编程语言 python 开发语言
感谢@#姚大姚优秀笔记，解决了99%问题（文末放出原文链接及原文截图）问题点记录及解决：Pytesseract库安装及使用步骤概括：pip安装pytesseract→下载安装Tesseract-OCR配置pytesseract.py→tesseract_cmd变量定义①用户变量添加、②系统环境变量Path添加变量名在.py程序使用时，切记配置Tesseract路径，否则会错误！importpyte
浅析基于深度学习算法的日语OCR技术原理及其应用场景 AI人工智能+ TEL18600524535 ocr 文字识别人工智能
在全球数字化进程加速的今天，日语作为世界第九大使用语言，其文字处理的自动化需求日益凸显，日语OCR技术应运而生。中科逸视日文OCR技术是一款基于先进人工智能技术的专业光学字符识别(OCR)解决方案，专门针对日语文本的数字化需求设计开发。能够将纸质文档、图片中的日文内容快速准确地转换为可编辑、可搜索的电子文本，大幅提升日文资料的处理效率，为企业国际化运营和个人日语学习提供强有力的技术支持。技术原理中
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(