全栈工程师修炼指南

开源项目|EasyOCR一款实用的图片OCR文字识别项目

欢迎关注「全栈工程师修炼指南」公众号

点击 下方卡片 即可关注我哟!

设为「星标⭐」每天带你 基础入门 到 进阶实践 再到 放弃学习！

“ 花开堪折直须折，莫待无花空折枝。 ”

作者主页：[ https://www.weiyigeek.top ]

博客：[ https://blog.weiyigeek.top ]

作者安全运维学习答疑交流群：请关注公众号回复【学习交流群】

0x00 快速了解

EasyOCR 介绍

Q: 什么是 EasyOCR ?

描述: EasyOCR 是一个用于从图像中提取文本的 python 模块, 它是一种通用的 OCR，既可以读取自然场景文本，也可以读取文档中的密集文本。目前支持 80 多种语言和所有流行的书写脚本，包括：拉丁文、中文、阿拉伯文、梵文、西里尔文等。

Q: 使用 EasyOCR 可以干什么?

描述: EasyOCR 支持两种方式运行一种是常用的CPU，而另外一种是需要GPU支持并且需安装CUDA环境, 我们使用其可以进行图片中语言文字识别, 例如小程序里图片识别、车辆车牌识别(即车债管理系统)。

Tips: 在其官网有demo演示，我们可以使用其进行简单图片ocr识别,地址为https://www.jaided.ai/easyocr/ 或者 https://huggingface.co/spaces/tomofi/EasyOCR

EasyOCR Framework

温馨提示: 图中灰色插槽是可更换的浅蓝色模块的占位符，我们可以重构代码以支持可交换的检测和识别算法 api

EasyOCR 参考来源

官网地址: https://www.jaided.ai/easyocr/

项目地址: https://github.com/JaidedAI/EasyOCR

作者在疫情期间，使用该开源项目开发的行程码、健康码项目（供大家参考学习）：https://github.com/WeiyiGeek/SecOpsDev/tree/master/Project/Python/EasyOCR/Travelcodeocr

文档原文地址: https://www.bilibili.com/read/cv16911816

实践视频地址: https://www.bilibili.com/video/BV1nY4y1x7JG

温馨提示: 该项目基于来自多篇论文和开源存储库的研究和代码，所有深度学习执行都基于 Pytorch ，识别模型是 CRNN 它由 3 个主要部分组成：特征提取（我们目前使用 Resnet ）和 VGG、序列标记（ LSTM ）和解码（ CTC ）。❤️

0x01 安装部署

环境依赖

环境依赖

Python 建议 3.8 x64 以上版本 (原本我的环境是 Python 3.7 安装时各种稀奇古怪的错误都出来，不得已abandon放弃)
easyocr 包 -> 依赖 torch 、torchvision 第三方包

注意事项:

Note 1.本章是基于 cpu 与 GPU 下使用 EasyOCR, 如果你需要使用 GPU 跑, 那么请你安装相应的CUDA环境。

$ nvidia-smi -l
Fri May 27 14:57:57 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 465.19.01    Driver Version: 465.19.01    CUDA Version: 11.3     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA Tesla V1...  Off  | 00000000:1B:00.0 Off |                    0 |
| N/A   41C    P0    36W / 250W |      0MiB / 32510MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

Note 2.最好在Python 3.8 x64 位系统上安装使用 easyocr , 非常注意其不支持32位的python。
Note 3.对于 Windows，请先按照 https://pytorch.org 的官方说明安装 torch 和 torchvision。在 pytorch 网站上，请务必选择您拥有的正确 CUDA 版本。如果您打算仅在 CPU 模式下运行，请选择 CUDA = None。

环境安装

描述: 此处我们使用 pip 安装 easyocr 使用以及通过官方提供的Dockerfile。

pip 方式
对于最新的稳定版本：

pip install easyocr -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

对于最新的开发版本：

pip install git+git://github.com/jaidedai/easyocr.git

Dockerfile
描述: 由于国内网络环境因素, 此处我将官方提供的Dockerfile稍作更改。

$ cd /opt/images/easyocr && git clone https://github.com/JaidedAI/EasyOCR.git --depth=1
$ ls
Dockerfile  EasyOCR

$ cat Dockerfile
# pytorch OS is Ubuntu 18.04
FROM pytorch/pytorch
LABEL DESC="EasyOCR Enviroment Build with Containerd Images"
ARG service_home="/home/EasyOCR" 

# Enviroment && Software
RUN sed -i -e "s#archive.ubuntu.com#mirrors.aliyun.com#g" -e "s#security.ubuntu.com#mirrors.aliyun.com#g" /etc/apt/sources.list  && \
    apt-get update -y && \
    apt-get install -y \
    libglib2.0-0 \
    libsm6 \
    libxext6 \
    libxrender-dev \
    libgl1-mesa-dev \
    git \
    vim \
    # cleanup
    && apt-get autoremove -y \
    && apt-get clean -y \
    && rm -rf /var/lib/apt/lists

# COPY EasyOCR is Github(https://github.com/JaidedAI/EasyOCR.git)
COPY ./EasyOCR "$service_home"

# Build
RUN cd "$service_home" \
  && pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ \
  && python setup.py build_ext --inplace -j 4 \
  && python -m pip install -e .

环境验证

# Windows 环境
pip freeze | findstr "easyocr"
easyocr @ file:///E:/%E8%BF%85%E9%9B%B7%E4%B8%8B%E8%BD%BD/easyocr-1.4.2-py3-none-any.whl
# Linux & 容器环境
$ pip freeze | grep "EasyOCR"
-e git+https://github.com/JaidedAI/EasyOCR.git@7a685cb8c4ba14f2bc246f89c213f1a56bbc2107#egg=easyocr

# python 命令行中使用
>>> from pprint import pprint  # 方便格式化输出
>>> import easyocr
>>> reader = easyocr.Reader(['ch_sim','en'])
CUDA not available - defaulting to CPU. Note: This module is much faster with a GPU.
>>> result = reader.readtext('00e336dbde464c809ef1f6ea568d4621.png')
>>> pprint(result)
[([[354, 46], [444, 46], [444, 76], [354, 76]], '中国移动', 0.981803297996521),
 ([[477, 55], [499, 55], [499, 75], [477, 75]], '46', 0.3972922105840435),
 ([[533, 55], [555, 55], [555, 75], [533, 75]], '5G', 0.5360637875500641),
 ([[354, 76], [474, 76], [474, 104], [354, 104]],
  '中国移动四 ',
  0.25950584649873865),
 ([[489, 57], [625, 57], [625, 95], [489, 95]],
  'GMl s @',
  0.011500043801327683),
 ([[693, 55], [801, 55], [801, 95], [693, 95]], 'Q92%', 0.022083675488829613),
 ([[864, 60], [950, 60], [950, 92], [864, 92]], '09:03', 0.9793587315696877),
 ([[884, 158], [938, 158], [938, 214], [884, 214]], '@', 0.29484160211053734),
 ([[123, 298], [592, 298], [592, 361], [123, 361]],
  '通信行程卡提供服务>',
  0.6739866899213806),
 ([[115, 429], [384, 429], [384, 497], [115, 497]],
  '通信行程卡',
  0.9159307714297187),
 ([[153, 596], [848, 596], [848, 704], [153, 704]],
  '通信大数据行程卡',
  0.2522292283860262),
................................
 ([[663, 2129], [793, 2129], [793, 2173], [663, 2173]],
  '保护你我',
  0.9819014668464661)]
# 设置 --detail=0 输出更简单
>>> result = reader.readtext('00e336dbde464c809ef1f6ea568d4621.png', detail = 0)

使用说明

Note 1.在使easyocr.Reader(['ch_sim','en'])于将模型加载到内存中(可能会耗费一些时间), 并且我们需要设定默认阅读的语言列表, 可以同时使用多种语言，但并非所有语言都可以一起使用, 而通常会采用英语与其他语言联合。

偷偷的告诉你哟？【极客全栈修炼】微信小程序已经上线了，

可直接在微信里面直接浏览博主博客了哟，后续将上线更多有趣的小工具。

下面列举出可用语言及其语言对应列表 (https://www.jaided.ai/easyocr/) :

# 对于我们来说常用语言如下:
# Language	Code Name
Simplified Chinese	ch_sim
Traditional Chinese	ch_tra
English	en

温馨提示: 所选语言的模型权重将自动下载，或者您可以从模型中心并将它们放在~/.EasyOCR/model文件夹中

Note 2.如果--gpu=True设置为True, 而机器又没有GPU支持的化将默认采用 CPU ，所以通常你会看到如下提示:

# 如果您没有 GPU，或者您的 GPU 内存不足，您可以通过添加 gpu=False. 
CUDA not available - defaulting to CPU. Note: This module is much faster with a GPU.

Note 3.在reader.readtext('参数值')函数中的参数值,可以是图片路径、也可是图像文件字节或者 OpenCV 图像对象（numpy 数组）以及互联网上图像的URL 等几种方式.

# 图像路径
reader.readtext('chinese.jpg')

# 图像URL
reader.readtext('https://www.weiyigeek.top/wechat.jpg')

# 图形字节
with open("chinese_tra.jpg", "rb") as f:
  img = f.read()
result = reader.readtext(img)

# 图像作为 numpy 数组（来自 opencv）传递
img = cv2.imread('chinese_tra.jpg')
result = reader.readtext(img)

Note 3.从上面结果可以看出输出结果将采用列表格式，每个项目分别代表一个边界框(四个点)、检测到的文本和可信度。

([[347, 844], [653, 844], [653, 892], [347, 892]],  # 边界 1 --> 2 -> 3 -> 4
  '请收下绿色行程卡',       # 文本
  0.9120484515458063),     # 可信度

Note 4.我们也可以在命令行中直接调用easyocr。

# 语法示例:
usage: easyocr [-h] -l LANG [LANG ...] [--gpu {True,False}] [--model_storage_directory MODEL_STORAGE_DIRECTORY]
  [--user_network_directory USER_NETWORK_DIRECTORY] [--recog_network RECOG_NETWORK]
  [--download_enabled {True,False}] [--detector {True,False}] [--recognizer {True,False}]
  [--verbose {True,False}] [--quantize {True,False}] -f FILE
  [--decoder {greedy,beamsearch,wordbeamsearch}] [--beamWidth BEAMWIDTH] [--batch_size BATCH_SIZE]
  [--workers WORKERS] [--allowlist ALLOWLIST] [--blocklist BLOCKLIST] [--detail {0,1}]
  [--rotation_info ROTATION_INFO] [--paragraph {True,False}] [--min_size MIN_SIZE]
  [--contrast_ths CONTRAST_THS] [--adjust_contrast ADJUST_CONTRAST] [--text_threshold TEXT_THRESHOLD]
  [--low_text LOW_TEXT] [--link_threshold LINK_THRESHOLD] [--canvas_size CANVAS_SIZE]
  [--mag_ratio MAG_RATIO] [--slope_ths SLOPE_THS] [--ycenter_ths YCENTER_THS] [--height_ths HEIGHT_THS]
  [--width_ths WIDTH_THS] [--y_ths Y_THS] [--x_ths X_THS] [--add_margin ADD_MARGIN]

# 案例:
$ easyocr -l ch_sim en -f chinese.jpg --detail=1 --gpu=False
$ easyocr -l ch_sim en -f .\0a1e948e90964d42b435d63c9f0aa268.png --detail=0 --gpu=True
  # CUDA not available - defaulting to CPU. Note: This module is much faster with a GPU.
....
请收下绿色行程卡
191****8499的动态行程卡
更新于:2022.05.2510:49:21
您于前14夭内到达或途经:  重庆市
结果包含您在前14天内到访的国家(地区)与停留4小时以上的国内城市
.....

方法参数

描述: 官方提供的包的模块方法以及参数说明, 参考地址 ( https://www.jaided.ai/easyocr/documentation/ )

1.EasyOCR 的基类

easyocr.Reader(['ch_sim','en'], gpu=False, model_storage_directory="~/.EasyOCR/.",download_enabled=True, user_network_directory="~/.EasyOCR/user_network",recog_network="recog_network",detector=True,recognizer=True)
# download_enabled ：如果 EasyOCR 无法找到模型文件，则启用下载
# model_storage_directory: 模型数据目录的路径
# user_network_directory: 用户定义识别网络的路径
# detector : 加载检测模型到内存中
# recognizer : 加载识别模型到内存中

2.Reader 对象的主要方法, 有 4 组参数：General、Contrast、Text Detection 和 Bounding Box Merging, 其返回值为列表形式。

亲，文章就要看完了，不关注一下【全栈工程师修炼指南】作者吗？

reader.readtext(
  'chinese.jpg',image,decoder='greedy',beamWidth=5,batch_size=1,workers=0,allowlist="ch_sim",blocklist="ch_tra",detail=1,paragraph=False,min_size=10,rotation_info=[90, 180 ,270],
  contrast_ths = 0.1, adjust_contrast = 0.5,
  text_threshold = 0.7, low_text = 0.4,link_threshold = 0.4, canvas_size = 2560, mag_ratio = 1,
  slope_ths = 0.1, ycenter_ths = 0.5, height_ths = 0.5, width_ths = 0.5, add_margin = 0.1, x_ths = 1.0, y_ths = 0.5

)

# Parameters 1: General
--batch_size : 当其值大于 1 时将使 EasyOCR 更快，但使用更多内存。
--allowlist : 强制 EasyOCR 仅识别字符子集。对特定问题有用（例如车牌等）
--detail : 将此设置为 0 以进行简单输出.
--paragraph ：将结果合并到段落中
--min_size: 过滤小于像素最小值的文本框
--rotation_info:允许 EasyOCR 旋转每个文本框并返回具有最高置信度分数的文本框。例如，对所有可能的文本方向尝试 [90, 180 ,270]。

# Parameters 2: Contrast
--contrast_ths : 对比度低于此值的文本框将被传入模型 2 次,首先是原始图像，其次是对比度调整为“adjust_contrast”值,结果将返回具有更高置信度的那个。
--adjust_contrast : 低对比度文本框的目标对比度级别


# Parameters 3: Text Detection (from CRAFT)
--text_threshold: 文本置信度阈值
--link_threshold: 链接置信度阈值
--canvas_size: 最大图像尺寸,大于此值的图像将被缩小。
--mag_ratio: 图像放大率

# Parameters 4: Bounding Box Merging
height_ths (float, default = 0.5) - 盒子高度的最大差异,不应合并文本大小差异很大的框。
width_ths (float, default = 0.5) - 合并框的最大水平距离。
x_ths (float, default = 1.0) - 当段落 = True 时合并文本框的最大水平距离。
y_ths (float, default = 0.5) - 当段落 = True 时合并文本框的最大垂直距离。

3.detect method, 检测文本框的方法。

Parameters
  image (string, numpy array, byte) - Input image
  min_size (int, default = 10) - Filter text box smaller than minimum value in pixel
  text_threshold (float, default = 0.7) - Text confidence threshold
  low_text (float, default = 0.4) - Text low-bound score
  link_threshold (float, default = 0.4) - Link confidence threshold
  canvas_size (int, default = 2560) - Maximum image size. Image bigger than this value will be resized down.
  mag_ratio (float, default = 1) - Image magnification ratio
  slope_ths (float, default = 0.1) - Maximum slope (delta y/delta x) to considered merging. Low value means tiled boxes will not be merged.
  ycenter_ths (float, default = 0.5) - Maximum shift in y direction. Boxes with different level should not be merged.
  height_ths (float, default = 0.5) - Maximum different in box height. Boxes with very different text size should not be merged.
  width_ths (float, default = 0.5) - Maximum horizontal distance to merge boxes.
  add_margin (float, default = 0.1) - Extend bounding boxes in all direction by certain value. This is important for language with complex script (E.g. Thai).
  optimal_num_chars (int, default = None) - If specified, bounding boxes with estimated number of characters near this value are returned first.

Return horizontal_list, free_list - horizontal_list is a list of regtangular text boxes. The format is [x_min, x_max, y_min, y_max]. free_list is a list of free-form text boxes. The format is [[x1,y1],[x2,y2],[x3,y3],[x4,y4]].

4.recognize method, 从文本框中识别字符的方法,如果未给出 Horizontal_list 和 free_list,它将整个图像视为一个文本框。

Parameters
  image (string, numpy array, byte) - Input image
  horizontal_list (list, default=None) - see format from output of detect method
  free_list (list, default=None) - see format from output of detect method
  decoder (string, default = 'greedy') - options are 'greedy', 'beamsearch' and 'wordbeamsearch'.
  beamWidth (int, default = 5) - How many beam to keep when decoder = 'beamsearch' or 'wordbeamsearch'
  batch_size (int, default = 1) - batch_size>1 will make EasyOCR faster but use more memory
  workers (int, default = 0) - Number thread used in of dataloader
  allowlist (string) - Force EasyOCR to recognize only subset of characters. Useful for specific problem (E.g. license plate, etc.)
  blocklist (string) - Block subset of character. This argument will be ignored if allowlist is given.
  detail (int, default = 1) - Set this to 0 for simple output
  paragraph (bool, default = False) - Combine result into paragraph
  contrast_ths (float, default = 0.1) - Text box with contrast lower than this value will be passed into model 2 times. First is with original image and second with contrast adjusted to 'adjust_contrast' value. The one with more confident level will be returned as a result.
  adjust_contrast (float, default = 0.5) - target contrast level for low contrast text box

Return list of results

更多详细信息及示例，请参照此项目的Github主页。

本文至此完毕，更多技术文章，尽情等待下篇好文！

原文地址: https://blog.weiyigeek.top/2022/5-8-658.html

如果此篇文章对你有帮助，请你将它分享给更多的人!

学习书籍推荐 往期发布文章

公众号回复【0008】获取【Ubuntu22.04安装与加固建脚本】

公众号回复【10001】获取【WinServer安全加固脚本】

公众号回复【0011】获取【k8S二进制安装部署教程】

公众号回复【0014】获取【Nginx学习之路汇总】

公众号回复【0015】获取【Jenkins学习之路汇总】

热文推荐

开发技能 | 如何在 Github 上给开源项目提交 PR?
开源项目 | ChatGPT-Next-Web私人ChatGPT网页应用一键免费部署
开源项目 | DB-GPT 来了，兼职奶爸搞了个数据库创新AI工具！
工具推荐 | 利用开源工具查看MobaXterm远程终端工具存储的Session账号密码信息
DataX开源项目异构数据源间数据同步基础介绍与快速入门(1)

欢迎长按（扫描）二维码，获取更多渠道哟!

欢迎关注【全栈工程师修炼指南】(＾Ｕ＾)ノ~ＹＯ

== 全栈工程师修炼指南 ==

微信沟通交流: weiyigeeker

关注回复【学习交流群】即可加入【安全运维沟通交流小群】

温馨提示: 由于作者水平有限，本章错漏缺点在所难免，希望读者批评指正，若有问题或建议请在文章末尾留下您宝贵的经验知识，或联系邮箱地址

[email protected] 或关注公众号 [全栈工程师修炼指南] 留言。

[全栈工程师修炼指南] 关注 企业运维实践、网络安全、系统运维、应用开发、物联网实战、全栈文章，尽在博客站点，谢谢支持！

点个【 赞 + 在 】看吧！

点击【"阅读原文"】获取更多有趣的知识!

LAMMPS实操系列（四）: 高熵合金FCC-CoCrCuFeNi的退火模拟测试狗科研科研测试材料测试统一建模语言
我们前几期文章内容详细介绍了通过LAMMPS程序进行大量FCC-CoCrCuFeNi高熵合金建模与最稳定结构的筛选，并最终赛选出了我们所建1000个模型中能量最小也就是最稳定的结构。本章我们将继续通过LAMMPS程序对我们筛选出来的最稳定结构进行退火处理。退火是一种对材料的热处理工艺，指的是将材料缓慢加热到一定温度，保持足够时间，然后以适宜速度冷却。其目的是降低材料的残余应力，减少变形与裂纹倾向，
C#Halcon扇形/圆环缺陷检测（极坐标变换法）浮生如梦_ c#计算机视觉视觉检测图像处理
扇形交互绘制与极坐标变换插件（加载图像—绘制扇形—极坐标变换—图像返回：运行效果）应用场景：缺陷检测，OCR识别，二维码识别，辅助定位等场景绘制扇形：原型算子create_drawing_object_circle_sector||create_drawing_object_ellipse_sector本次Demo小编用的是标准圆形绘制的扇形，目的是为了后面极坐标变换如果不涉及极坐标变换，可以采用
ipython的变量_使用Ipython ipywidget创建变量？ weixin_39521009 ipython的变量
ThisseemsreallysimplebutIhavenotbeenabletofindasingleexampleortosolvethismyself.HowdoIuseanipywidgetwidgettocreateorreturnapythonvariable/object,suchasalistorstring,thatcanbeusedinafollowingcell?解决方案T
Umi-OCR：开源、免费的离线OCR软件庞沛兴Philippa
Umi-OCR：开源、免费的离线OCR软件Umi-OCRUmi-OCR:这是一个免费、开源、可批量处理的离线OCR软件，适用于Windows系统，支持截图OCR、批量OCR、二维码识别等功能。项目地址:https://gitcode.com/gh_mirrors/um/Umi-OCR项目基础介绍和主要编程语言Umi-OCR是一个开源、免费的离线OCR（光学字符识别）软件，适用于Windows和Li
-bash: ./****.py: /usr/bin/python^M: bad interpreter: No such file or directory GeoWin_CAU GeoPython Spatial Big Data（空间大数据）python linux windows
在windows系统下写的python脚本，在linux下赋予权限chmod+xxxx.py以后，执行./xxx.py运行提示：bash:/usr/bin/autocrorder:/usr/bin/python^M:badinterpreter:Nosuchfileordirectory更多文章请点击我
网络安全基础{英文答案}_OCR ★Alfalfa★ 网络安全
Chapter1IntroductionAnswerstoQuestionsTheOSISecurityArchitectureisaframeworkthatprovidesasystematicwayofdefiningtherequirementsforsecurityandcharacterizingtheapproachestosatisfyingthoserequirements.Th
Python下3种文字识别工具的源码和效果比较 eybk python 开发语言
1.pytesseractimportpytesseractfromPILimportImageim=Image.open(r'C:/Users/YBK/Pictures/35005.jpg')string=pytesseract.image_to_string(im,lang='chi_sim')print(string)2.paddleocrfrompaddleocrimportPaddleO
Anaconda数据报错：Fatal error in launcher: Unable to create process using ‘“E:\Anaconda\python.exe“ “D: Deng872347348 python windows 开发语言
Anaconda数据报错：Fatalerrorinlauncher:Unabletocreateprocessusing'“E:\Anaconda\python.exe”“D:\Anaconda\Scripts\pip.exe”':???问题描述—Fatalerrorinlauncher:Unabletocreateprocessusing'“E:\Anaconda\python.exe”“D:\
word转HTML 基本版我自横刀向天笑-去留肝胆两昆仑 Java html word 转换
同时支持doc和docx，话不多说，直接上代码项目依赖pom.xmlcommons-langcommons-lang2.6org.apache.poipoi3.14org.apache.poipoi-ooxml3.14org.apache.poipoi-scratchpad3.14fr.opensagres.xdocreportorg.apache.poi.xwpf.converter.xhtml
Tika 解析pdf时使用的内置TesseractOCRParser如何修改语言为简体中文 lxh9512 pdf spring boot
项目需求中需要对pdf文件进行解析提取文件中的文本内容，对比后选择使用tika库支持对多种文件自动进行解析，测试解析效果也不错。但是遇到问题当解析扫描版pdf文件时，tika会去调用ocr工具TesseractOCRParser没有的话解析内容会为空，下载安装Tesseract后能解析出来但是内容都是乱码。发现需要下载中文解析包并设置解析语言为中文，但是TesseractOCRParser的默认语
python 利用 ddddocr包 ocr识别图片码风_流沙 python工具备忘录 python ocr 开发语言
ddddocr是一个轻量级的OCR（光学字符识别）库，适用于识别图片中的文字，包括验证码等图像文本。要使用ddddocr进行图片验证码的识别，可以按照以下步骤进行：1.安装ddddocr包首先，你需要安装ddddocr包。你可以使用pip安装：pipinstallddddocr2.使用ddddocr进行OCR识别importddddocr#创建OCR对象ocr=ddddocr.DdddOcr()#
使用 Python 和 Tesseract 实现验证码识别一休哥助手 mfc c++
验证码识别是一个常见且实用的技术需求，尤其是在自动化测试和数据采集场景中。通过开源OCR（OpticalCharacterRecognition，光学字符识别）工具Tesseract，结合Python的强大生态，我们可以高效实现验证码识别任务。本篇博客将以详细步骤和代码示例，介绍如何使用Python和Tesseract实现验证码识别，包括原理解析、图像预处理、代码实现以及优化策略。一、验证码识别的
【git】idea和git默认换行符号设置 lisacumt git
IDEAFile|Settings|Editor|CodeStylegitLFwillbereplacedbyCRLFthenexttimeGittouchesit#win也使用使用默认的LF作为换行符#ture的话会自动转换gitconfig--globalcore.autocrlffalse
如何用Python将pdf文件转化为高清图片张登杰踩 pdf
最近在整理文档，需要将文档进行OCR识别，然后结构化。直接解析pdf文档，行不通，因为文档里面是图片。于是采取先转图片，然后OCR，然后结构化。下面是pdf文档转图片的方法。importfitz#PyMuPDFdefpdf_to_images(pdf_path,images_folder):#打开PDF文件document=fitz.open(pdf_path)forpage_numinrange
linux下使用脚本实现对进程的内存占用自动化监测浪小满常用问题解决 linux 自动化运维内存占用情况监测
linux系统中常用cat/proc/{pid}/status和pmap-x{pid}来监测某个进程的内存资源占用情况。其中注意各参数的含义如下：VmSize：表示进程当前虚拟内存大小VmPeak：表示进程所占用最大虚拟内存大小VmRSS：表示进程当前占用物理内存的大小(与procrank中的RSS，pmap中的RSS一样)VmLck：表示被锁定的内存大小VmHWM：表示进程所占用物理内存的峰值V
怎么样搭建客户管理系统客户管理crm系统
搭建一个高效的客户管理系统（CRM）是现代企业提升竞争力的关键所在。首先，明确需求是搭建客户管理系统的第一步，企业应根据自身行业特性和客户管理需求来设计系统架构、选择功能模块。其次，选择合适的CRM工具能够显著提升系统的实施效率，市场上如纷享销客、ZohoCRM等多款工具，在国产化、国际化的背景下，能够为企业提供多元化的服务和定制化需求解决方案。最后，数据管理与自动化功能的整合是系统成功与否的关键
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
从大型企业到中小企业：销售易、红圈、励销云CRM的行业应用程序员算法机器学习
在数字化转型的浪潮中，客户关系管理（CRM）系统已成为企业提升竞争力的关键工具。本文将对国内三大知名CRM品牌——销售易CRM、红圈CRM和励销云CRM进行深度分析，从品牌介绍和适用企业两个维度进行总结和盘点，帮助企业选择最适合自身需求的CRM解决方案。一、销售易CRM品牌介绍销售易（Neocrm）是中国领先的CRM品牌，成立于2011年，总部位于北京。作为国内领先的企业级CRM服务商之一，销售易
Python识别处理验证码技术详解傻啦嘿哟 python 开发语言
目录一、验证码的种类二、OCR技术简介三、使用OCR技术识别验证码1.安装所需库2.下载和处理验证码图片3.使用OCR进行识别4.完整代码示例四、处理复杂验证码五、案例：识别古诗文网验证码六、总结验证码作为一种常见的安全手段，广泛应用于各种网站和应用中，以防止自动化脚本的恶意攻击。然而，在自动化测试或数据抓取过程中，识别验证码成为了一个不得不面对的问题。本文将详细介绍如何使用Python来识别和处
Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式蚝油菜花每日 AI 项目与应用实例人工智能 ocr pdf 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发非常感兴趣，我会每日分享大模型与AI领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读功能：支持零样本OCR识别，兼容PDF、DOCX、图片等多种格式文件。技术：基于GPT-4o-mini模型，能够处理复杂布局文档，输出Markdown格式结果。应用：提供API接口，便于集成到
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
rocketmq的启动关闭 chen_zi_ rocketmq linux 服务器
rocketmq的启动1.启动NameServer[root@dailybluebin]#nohupshmqnamesrv&检查日志：[root@dailybluebin]#tail-f~/logs/rocketmqlogs/namesrv.log2.启动Brokernohupshmqbroker-c../conf/broker.conf-n192.168.88.23:9876autoCreate
小猿口算自动PK脚本小黄编程快乐屋人工智能 python
大家好，我是小黄。近期，众多大学生炸鱼小猿口算APP,把一众小学生都快虐哭了，小黄听闻后，也跃跃欲试。对此小黄也参考网上的资料写了一个自动Pk的脚步。首先大家需要安装一个pytorch环境过程中，如果小伙伴对此不熟悉的话可以参考网上的相关教程。我们需要用到Tesseract-OCR文本识别。他的原理就是先截图，之后框选出比较大小的两个数字所在的区域，使用Tesseract-OCR识别出来后进行判断
【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
python安装包提示Requirement already satisfied 可爱的的编辑人员配置 python numpy 开发语言
python安装cnocr提示Requirementalreadysatisfied错误信息如下：Requirementalreadysatisfied:pyreadline3inc:\python310\lib\site-packages(fromhumanfriendly>=9.1->coloredlogs->onnxruntime->cnocr)(3.4.1)Installingcollec
OCR字符识别--WeChatocr 鲁鲁在川 ocr
导入库，及定义微信OCR地址fromwechat_ocr.ocr_managerimportOcrManager,OCR_MAX_TASK_IDimportthreadingwechat_ocr_dir=r"./ocr/WeChatOCR/7079/extracted"#OCR的地址，可以用everythin工具查找一下地址这个地址是电脑用户安装APP的地址---C:\Users\xxxx\App
SpringBoot一键提取身份证与营业执照信息一名技术极客 #java相关工具类 spring boot 后端 java
SpringBoot一键提取身份证与营业执照信息使用的工具和库步骤和代码示例添加依赖图像预处理和文字识别信息提取使用OpenCV对图像进行预处理OpenCV图像预处理示例集成到OCR服务中在SpringBoot中实现图片中的身份证号、营业执照等信息的识别，可以分为以下几个步骤：图像预处理：为了提高识别的准确性，首先对图片进行预处理，如调整大小、对比度、亮度等。文字检测：使用图像处理算法或框架来定位
Deluge脚本语言是什么？在Zoho Creator低代码平台中有什么作用？低代码软件开发开发工具编程语言
在当今快速变化的商业环境中，企业需要敏捷地适应市场变化，快速响应客户需求。ZohoCreator低代码开发平台，提供了一个强大的工具集，帮助企业构建定制化的应用程序。本文将探讨Deluge脚本语言是什么，以及它是如何增强ZohoCreator构建的应用程序功能方面的能力。一、传统开发模式下的痛点与挑战在当今快速变化的商业环境中，企业需要能够迅速响应市场需求并灵活调整业务流程的应用程序。然而，传统的
用Ingress生成route，如何让生成route的insecureEdgeTerminationPolicy 的值为Allow RedCong Openshift k8s 云原生 kubernetes 云原生 openshift
对于此功能当前还没有实现，相关的新功能添加的Jiraticket如下：Annotatetheingresstocreatetheroutewiththespec.tls.insecureEdgeTerminationPolicysettoAllow目前已经实现的功能为termination，insecureEdgeTerminationPolicy目前未实现。apiVersion:networki
Java - 文字识别；示例代码基于SpringAI和国产大模型沈询-阿里 microsoft 机器学习人工智能后端
文字识别在Java开发中的应用在Java开发中，将图像中的文字进行识别能力被广泛应用于多种场景，比如自动审核图片内容、商品搜索分析等。过去，这类需求主要通过OCR（光学字符识别）技术来实现，但其对于复杂图像的处理效果往往不尽人意。如今，随着大模型技术的发展，利用这些先进的AI模型进行文字识别成为可能，不仅大大提升了识别精度和速度，还能更好地理解图像中的复杂信息，为用户提供更加准确可靠的服务。本文采
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio