GoAI

基于PaddleOCR的体检报告识别

✨写在前面：强烈推荐给大家一个优秀的人工智能学习网站，内容包括人工智能基础、机器学习、深度学习神经网络等，详细介绍各部分概念及实战教程，通俗易懂，非常适合人工智能领域初学者及研究者学习。➡️点击跳转到网站。

基于PaddleOCR的体检报告识别

一、项目背景与意义

面对飞速发展互联网医疗时代，医疗信息化建设已经成为医疗行业发展的趋势。经调研，约80%的医学病历是处于非结构化状态的，难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本，医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此，针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。

体检报告识别可以帮助医务服务人员自动识别录入用户征信信息，节约人力成本、提升服务效率，实现降本增效，具有重要实际意义。基于PaddleOCR已在文字识别领域取得优秀成果，本项目基于PaddleOCR实现体检报告检测与识别，对数据进行结构化处理，结合CV+NLP技术达到一定识别精度，未来推广应用场景可以基于识别信息做个性化疾病预测与健康推荐。

二、项目链接

PaddleOCR体检报告识别 - 飞桨AI Studio

三、项目流程

PaddleOCR是百度开源的超轻量级OCR模型库，本文使用其框架进行体检报告识别，本次项目具体流程包括：

PaddleOCR环境安装与快速预测
体检报告检测模型训练det
体检报告识别模型训练rec

四、技术介绍

针对PaddleOCR提供的算法模型，本次选择基础模型用于体检报告识别与检测，流程如下：

1.检测：DB算法

文字检测参考这篇：

OCR文字识别技术总结（三）__文本检测算法总结

2.识别：CRNN+CTC

CRNN可参考这篇文章：

CRNN文字识别_GoAI的博客-CSDN博客_crnn

五、数据集介绍

数据位置: data/data159696/report_ex.tar

解压命令 !tar -xf /home/aistudio/data/data159696/report_ex.tar

数据集结构：

/home/aistudio/report_ex
  └─ pngs:存放体检照片，以pngs形式结尾
  └─ txts: 存放标注坐标信息及包含内容.
  └─ json：内容同上 ，存放json格式信息。


数据集txt格式为:

Rect (182.0, 1078.03125, 266.0, 1064.03125) 姓名：张某某

Rect (356.0, 1078.03125, 412.0, 1064.03125) 性别：男

Rect (516.0, 1078.03125, 572.0, 1064.03125) 年龄：40

注:本数据坐标是以左下角为原点，利用Paddleocr做检测时需要转换成左上角原点，且本数据坐标需要横纵坐标都乘4.

图片样式：

1.安装环境与测试

1.1 安装项目环境

安装PaddleOCR相关环境

%cd ~ 
!git clone -b release/2.1 https://github.com/PaddlePaddle/PaddleOCR.git

# 安装依赖库
%cd ~/PaddleOCR
!pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple

1.2. 下载预测模型并测试

下载PaddleOCR中文轻量级OCR模型用于测试部分图像识别结果，模型存放在在PaddleOCR/inference目录下。

In [ ]

! mkdir inference
# 下载超轻量级中文OCR模型的检测模型并解压
! cd inference && wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer.tar && tar xf ch_ppocr_mobile_v2.0_det_infer.tar && rm ch_ppocr_mobile_v2.0_det_infer.tar
# 下载超轻量级中文OCR模型的识别模型并解压
! cd inference && wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_rec_infer.tar && tar xf ch_ppocr_mobile_v2.0_rec_infer.tar && rm ch_ppocr_mobile_v2.0_rec_infer.tar
# 下载超轻量级中文OCR模型的文本方向分类器模型并解压
! cd inference && wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar && tar xf ch_ppocr_mobile_v2.0_cls_infer.tar && rm ch_ppocr_mobile_v2.0_cls_infer.tar

1.3测试单张报告数据集并可视化

In [ ]

import matplotlib.pyplot as plt
from PIL import Image
%pylab inline

def show_img(img_path,figsize=(10,10)):
    ## 显示原图，读取名称为11.jpg的测试图像
    img = Image.open(img_path)
    plt.figure("test_img", figsize=figsize)
    plt.imshow(img)
    plt.show()
show_img("../20220623110401-0.png")

Populating the interactive namespace from numpy and matplotlib

测试单张图像

调用tools/infer/predict_system.py 完成报告识别，共需要传入三个参数：

image_dir：指定要测试的图像
det_model_dir：指定轻量检测模型的inference model
rec_model_dir：指定轻量识别模型的inference model
cls_model_dir：指定轻量方向分类器模型的inference model

In [ ]

# 快速运行
!python3 ./tools/infer/predict_system.py --image_dir="../20220623110401-0.png" \
--det_model_dir="./inference/ch_ppocr_mobile_v2.0_det_infer"  \
--rec_model_dir="./inference/ch_ppocr_mobile_v2.0_rec_infer" \
--cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer"

In [27]

# 训练效果
!python3 ./tools/infer/predict_system.py --image_dir="../20220623110401-0.png" \
--det_model_dir="./outputall/db_mv3/best_accuracy"  \
--rec_model_dir="./output/rec/best_accuracy" \
--cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer"

上述结果说明：输出结果中有两列数据，第一列表示PaddleOCR识别出的文字，第二列表示识别出当前文字的置信度。置信度的数据范围是[0-1]，置信度越接近1表示文本识别对的“信心”越大。同时，识别结果会可视化在图像中并保存在./inference_results文件夹下，可以通过左边的目录结构选择要打开的文件，也可以通过如下代码将可视化后的图像显示出来，观察OCR文本识别的效果。

针对上述./inference_results/20220623110401-0.png检测结果展示如下：

In [ ]

show_img("./inference_results/20220623110401-0.png",figsize=(20,20))

2. 训练文字检测模型

PaddOCR官方检测模型数据集以icdar15为例，本文参照其标注格式进行检测模型的训练、评估与测试，模型以MobienetV3网络为例，可自己更改其他网络。

注：官方icdar15数据集存放在 ~/data/data34815/icdar2015.tar ，后续如有数据格式问题可做参考。官方数据~/train_data/icdar2015/text_localization 有两个文件夹和两个文件，分别是：

~/train_data/icdar2015/text_localization 
  └─ icdar_c4_train_imgs/         icdar数据集的训练数据
  └─ ch4_test_images/             icdar数据集的测试数据
  └─ train_icdar2015_label.txt    icdar数据集的训练标注
  └─ test_icdar2015_label.txt     icdar数据集的测试标注

官方提供的标注文件格式为：

" 图像文件名                    json.dumps编码的图像标注信息"
ch4_test_images/img_61.jpg    [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]], ...}]

json.dumps编码前的图像标注信息是包含多个字典的list，字典中的pointspointspoints表示文本框的四个点的坐标(x, y)，从左上角的点开始顺时针排列。 transcriptiontranscriptiontranscription表示当前文本框的文字，在文本检测任务中并不需要这个信息。

2.1. 数据准备

首先解压本次体检报告数据到当前目录，解压命令如下：

!tar -xf /home/aistudio/data/data159696/report_ex.tar

#查看当前文件夹图片数量
%cd /home/aistudio/report_ex/pngs
!ls -l | grep "^-" | wc -l   #一共20011张图片

/home/aistudio/report_ex/pngs
20011

本次体检报告数据集txt格式为:

Rect (182.0, 1078.03125, 266.0, 1064.03125) 姓名：张某某

Rect (356.0, 1078.03125, 412.0, 1064.03125) 性别：男

Rect (516.0, 1078.03125, 572.0, 1064.03125) 年龄：40

由于数据格式不同，本项目需要编写转换数据程序构建为PaddleOCR标注文件格式, 由于时间原因，格式代码比较粗糙，读者后续可根据需求自行完善。

以1.部分数据集为例的训练相关代码：

/home/aistudio/report_ex/
  └─ train_det_new1_hebing/        report_ex数据集的测试数据
  └─ test_det_new1_hebing  			  report_ex数据集的测试数据
/home/aistudio/  
  └─ train_det_new1_hebing.txt.txt    report_ex数据集的训练标注
  └─ test_det_new1_hebing.txt.txt    report_ex数据集的测试标注
  └─ gen_data_det_reg.py          格式转换代码
  └─ hebing.py						数据合并
  └─ split_data.py					切分训练集与测试集
  └─ file.py               拷贝训练集与测试集图片到文件夹
/home/aistudio/PaddleOCR
  └─ tools/train.py            训练代码
  └─ tools/infer_det.py         推理代码
  └─ configs/det/det_mv3_db_all.yml  配置文件

2.2 快速启动训练

下载PaddleOCR主流两种检测模型backbone，MobileNetV3和ResNet50_vd，后续可以根据需求使用PaddleClas中的模型更换backbone。

In [ ]

# 下载MobileNetV3的预训练模型
!pwd
!wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_large_x0_5_pretrained.tar
! cd pretrain_models/ && tar xf MobileNetV3_large_x0_5_pretrained.tar
# 下载ResNet50的预训练模型
!wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_ssld_pretrained.tar
! cd pretrain_models/ && tar xf ResNet50_vd_ssld_pretrained.tar

2.3数据转换

运行转换程序gen_data_det_reg.py，生成det检测和reg识别的txt格式，以实际运行结果为准！

det.txt

20220623110401-0.png [{"transcription":"姓名：张某某","points":[[182.0,4256.125],[266.0,4256.125],[182.0,4312.125],[266.0,4312.125]]}]

20220623110401-0.png [{"transcription":"性别：男","points":[[356.0,4256.125],[412.0,4256.125],[356.0,4312.125],[412.0,4312.125]]}]

20220623110401-0.png [{"transcription":"年龄：40","points":[[516.0,4256.125],[572.0,4256.125],[516.0,4312.125],[572.0,4312.125]]}]

reg.txt

20220623110401-0.png 姓名：张某某

20220623110401-0.png 性别：男

20220623110401-0.png 年龄：40

本次体检报告由于数据量巨大且训练时间长，为了方便大家查看运行效果及调试，下列训练用到的数据集会分为 1.部分数据集与 2.全集数据集，脚本命名已写在注释中，按需运行按需打开注释即可。

#1.部分数据集数据转换脚本, 生成det1.txt ,合并后一共一百多张图片， 坐标为横坐标×4 、 纵坐标=图片高度-纵坐标×4 ， reg.txt目前没用到。
#执行报错，会出现IndexError: list index out of range,  只生成2万多条数据，但不影响跑。
%cd /home/aistudio/
# !python ./gen_data_det_reg.py
#2.跑全量数据脚本,生成det_all.txt，可以跑通，但全量数据集太大，还未执行，
# %cd /home/aistudio/
!python ./gen_data_all.py

#合并上述生成txt的数据，改为一张照片对应所有坐标合并成一行  ,生成合并后新的txt
#1.部分数据合并 det1.txt，生成det_new_hebing.txt
# !python hebing.py
#2.全量数据合并 det_all.txt，生成det_new_hebing_all.txt
!python hebing_all.py

2.4数据集划分

将检测数据det.txt、识别数据reg.txt 划分训练集和验证集 , 生成train_det.txt 、 test_det.txt、 train_reg.txt 、 test_reg.txt四个文件

In [ ]

#1.划分部分数据集用于训练，将det.txt拆成train_det_new1_hebing.txt和test_det_new1_hebing.txt，注意生成的训练测试集txt名字要跟训练时相同
# !python split_data.py
#2.划分全量数据集,将det_new_hebing_all.txt拆成 train_det_hebing_all.txt和test_det_hebing_all.txt
!python split_data_all.py

2.5拷贝数据集图片

#注：拷贝上述训练及验证集图片到对应路径

#编辑file.py打开对应注释，重复执行两次！！！ 一次train 、一次test , 生成上述txt对应的图片文件夹包含图片。

#1.部分数据图片拷贝到文件夹,拷贝train_det_new1.txt和test_det_new1.txt包含的图片拷贝到新文件夹./report_ex/train_det_new1和report_ex/test_det_new1，用于测试
# !python file.py
#2.全量数据图片拷贝到文件夹，train_det_hebing_all.txt和test_det_hebing_all.txt包含的图片拷贝到新文件夹./report_ex/train_det_hebing_all和./report_ex/test_det_hebing_all
!python file_all.py

2.6.检测模型训练

本次选择backbone为MobileNetV3、Resnet50的db算法的检测模型.通过-c 选择训练使用配置文件configs/det/det_db_mv3.yml配置文件，-o参数在不需要修改yml文件的情况下，改变训练的参数

In [ ]

# 官方训练backbone为MobileNetV3的db算法的检测模型，此部分只做参考，不用执行！
# !python3 PaddleOCR/tools/train.py -c PaddleOCR/configs/det/det_mv3_db.yml -o \
# Global.eval_batch_step="[0,500]" \
# Global.load_static_weights=true \
# Global.pretrained_model='PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained' \
# Train.dataset.data_dir='PaddleOCR/train_data/text_localization/' \
# Train.dataset.label_file_list=['PaddleOCR/train_data/text_localization/train_icdar2015_label.txt'] \
# Eval.dataset.data_dir='PaddleOCR/train_data/text_localization/' \
# Eval.dataset.label_file_list=['PaddleOCR/train_data/text_localization/test_icdar2015_label.txt']

#每次启动运行结果提示缺少包执行此条安装相关环境
!pip install lmdb
!pip install pyclipper
!pip install  Levenshtein
!pip install imgaug

全量数据训练

由于数据量较大且训练时间较长，针对上述两种不同数据集大小，本次训练分别列出全量及部分数据集训练代码，可按需选择。

In [ ]

#1.合并后全量数据集+MobileNetV3检测模型训练
%cd /home/aistudio/
!python3 PaddleOCR/tools/train.py -c PaddleOCR/configs/det/det_mv3_db_all.yml -o \
Global.eval_batch_step="[0,300]" \
Global.load_static_weights=true \
Global.checkpoints='./outputall/db_mv3/best_accuracy' \
Global.pretrained_model='PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained' \
Train.loader.batch_size_per_card=32 \
Train.dataset.data_dir='./report_ex/train_det_hebing_all' \
Train.dataset.label_file_list=['./train_det_hebing_all.txt'] \
Eval.dataset.data_dir='./report_ex/test_det_hebing_all' \
Eval.dataset.label_file_list=['./test_det_hebing_all.txt']

/home/aistudio
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/10 15:52:35] root INFO: Architecture : 
[2022/08/10 15:52:35] root INFO:     Backbone : 
[2022/08/10 15:52:35] root INFO:         model_name : large
[2022/08/10 15:52:35] root INFO:         name : MobileNetV3
[2022/08/10 15:52:35] root INFO:         scale : 0.5
[2022/08/10 15:52:35] root INFO:     Head : 
[2022/08/10 15:52:35] root INFO:         k : 50
[2022/08/10 15:52:35] root INFO:         name : DBHead
[2022/08/10 15:52:35] root INFO:     Neck : 
[2022/08/10 15:52:35] root INFO:         name : DBFPN
[2022/08/10 15:52:35] root INFO:         out_channels : 256
[2022/08/10 15:52:35] root INFO:     Transform : None
[2022/08/10 15:52:35] root INFO:     algorithm : DB
[2022/08/10 15:52:35] root INFO:     model_type : det
[2022/08/10 15:52:35] root INFO: Eval : 
[2022/08/10 15:52:35] root INFO:     dataset : 
[2022/08/10 15:52:35] root INFO:         data_dir : ./report_ex/test_det_hebing_all
[2022/08/10 15:52:35] root INFO:         label_file_list : ['./test_det_hebing_all.txt']
[2022/08/10 15:52:35] root INFO:         name : SimpleDataSet
[2022/08/10 15:52:35] root INFO:         transforms : 
[2022/08/10 15:52:35] root INFO:             DecodeImage : 
[2022/08/10 15:52:35] root INFO:                 channel_first : False
[2022/08/10 15:52:35] root INFO:                 img_mode : BGR
[2022/08/10 15:52:35] root INFO:             DetLabelEncode : None
[2022/08/10 15:52:35] root INFO:             DetResizeForTest : 
[2022/08/10 15:52:35] root INFO:                 image_shape : [736, 1280]
[2022/08/10 15:52:35] root INFO:             NormalizeImage : 
[2022/08/10 15:52:35] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/10 15:52:35] root INFO:                 order : hwc
[2022/08/10 15:52:35] root INFO:                 scale : 1./255.
[2022/08/10 15:52:35] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/10 15:52:35] root INFO:             ToCHWImage : None
[2022/08/10 15:52:35] root INFO:             KeepKeys : 
[2022/08/10 15:52:35] root INFO:                 keep_keys : ['image', 'shape', 'polys', 'ignore_tags']
[2022/08/10 15:52:35] root INFO:     loader : 
[2022/08/10 15:52:35] root INFO:         batch_size_per_card : 1
[2022/08/10 15:52:35] root INFO:         drop_last : False
[2022/08/10 15:52:35] root INFO:         num_workers : 8
[2022/08/10 15:52:35] root INFO:         shuffle : False
[2022/08/10 15:52:35] root INFO:         use_shared_memory : False
[2022/08/10 15:52:35] root INFO: Global : 
[2022/08/10 15:52:35] root INFO:     cal_metric_during_train : False
[2022/08/10 15:52:35] root INFO:     checkpoints : ./outputall/db_mv3/best_accuracy
[2022/08/10 15:52:35] root INFO:     debug : False
[2022/08/10 15:52:35] root INFO:     distributed : False
[2022/08/10 15:52:35] root INFO:     epoch_num : 1200
[2022/08/10 15:52:35] root INFO:     eval_batch_step : [0, 500]
[2022/08/10 15:52:35] root INFO:     infer_img : ./20220623110401-0.png
[2022/08/10 15:52:35] root INFO:     load_static_weights : True
[2022/08/10 15:52:35] root INFO:     log_smooth_window : 20
[2022/08/10 15:52:35] root INFO:     pretrained_model : PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained
[2022/08/10 15:52:35] root INFO:     print_batch_step : 10
[2022/08/10 15:52:35] root INFO:     save_epoch_step : 1200
[2022/08/10 15:52:35] root INFO:     save_inference_dir : None
[2022/08/10 15:52:35] root INFO:     save_model_dir : /home/aistudio/outputall/db_mv3/
[2022/08/10 15:52:35] root INFO:     save_res_path : ./outputall/det_db/predicts_db.txt
[2022/08/10 15:52:35] root INFO:     use_gpu : True
[2022/08/10 15:52:35] root INFO:     use_visualdl : False
[2022/08/10 15:52:35] root INFO: Loss : 
[2022/08/10 15:52:35] root INFO:     alpha : 5
[2022/08/10 15:52:35] root INFO:     balance_loss : True
[2022/08/10 15:52:35] root INFO:     beta : 10
[2022/08/10 15:52:35] root INFO:     main_loss_type : DiceLoss
[2022/08/10 15:52:35] root INFO:     name : DBLoss
[2022/08/10 15:52:35] root INFO:     ohem_ratio : 3
[2022/08/10 15:52:35] root INFO: Metric : 
[2022/08/10 15:52:35] root INFO:     main_indicator : hmean
[2022/08/10 15:52:35] root INFO:     name : DetMetric
[2022/08/10 15:52:35] root INFO: Optimizer : 
[2022/08/10 15:52:35] root INFO:     beta1 : 0.9
[2022/08/10 15:52:35] root INFO:     beta2 : 0.999
[2022/08/10 15:52:35] root INFO:     lr : 
[2022/08/10 15:52:35] root INFO:         learning_rate : 0.001
[2022/08/10 15:52:35] root INFO:     name : Adam
[2022/08/10 15:52:35] root INFO:     regularizer : 
[2022/08/10 15:52:35] root INFO:         factor : 0
[2022/08/10 15:52:35] root INFO:         name : L2
[2022/08/10 15:52:35] root INFO: PostProcess : 
[2022/08/10 15:52:35] root INFO:     box_thresh : 0.6
[2022/08/10 15:52:35] root INFO:     max_candidates : 1000
[2022/08/10 15:52:35] root INFO:     name : DBPostProcess
[2022/08/10 15:52:35] root INFO:     thresh : 0.3
[2022/08/10 15:52:35] root INFO:     unclip_ratio : 1.5
[2022/08/10 15:52:35] root INFO: Train : 
[2022/08/10 15:52:35] root INFO:     dataset : 
[2022/08/10 15:52:35] root INFO:         data_dir : ./report_ex/train_det_hebing_all
[2022/08/10 15:52:35] root INFO:         label_file_list : ['./train_det_hebing_all.txt']
[2022/08/10 15:52:35] root INFO:         name : SimpleDataSet
[2022/08/10 15:52:35] root INFO:         ratio_list : [1.0]
[2022/08/10 15:52:35] root INFO:         transforms : 
[2022/08/10 15:52:35] root INFO:             DecodeImage : 
[2022/08/10 15:52:35] root INFO:                 channel_first : False
[2022/08/10 15:52:35] root INFO:                 img_mode : BGR
[2022/08/10 15:52:35] root INFO:             DetLabelEncode : None
[2022/08/10 15:52:35] root INFO:             IaaAugment : 
[2022/08/10 15:52:35] root INFO:                 augmenter_args : 
[2022/08/10 15:52:35] root INFO:                     args : 
[2022/08/10 15:52:35] root INFO:                         p : 0.5
[2022/08/10 15:52:35] root INFO:                     type : Fliplr
[2022/08/10 15:52:35] root INFO:                     args : 
[2022/08/10 15:52:35] root INFO:                         rotate : [-10, 10]
[2022/08/10 15:52:35] root INFO:                     type : Affine
[2022/08/10 15:52:35] root INFO:                     args : 
[2022/08/10 15:52:35] root INFO:                         size : [0.5, 3]
[2022/08/10 15:52:35] root INFO:                     type : Resize
[2022/08/10 15:52:35] root INFO:             EastRandomCropData : 
[2022/08/10 15:52:35] root INFO:                 keep_ratio : True
[2022/08/10 15:52:35] root INFO:                 max_tries : 50
[2022/08/10 15:52:35] root INFO:                 size : [640, 640]
[2022/08/10 15:52:35] root INFO:             MakeBorderMap : 
[2022/08/10 15:52:35] root INFO:                 shrink_ratio : 0.4
[2022/08/10 15:52:35] root INFO:                 thresh_max : 0.7
[2022/08/10 15:52:35] root INFO:                 thresh_min : 0.3
[2022/08/10 15:52:35] root INFO:             MakeShrinkMap : 
[2022/08/10 15:52:35] root INFO:                 min_text_size : 8
[2022/08/10 15:52:35] root INFO:                 shrink_ratio : 0.4
[2022/08/10 15:52:35] root INFO:             NormalizeImage : 
[2022/08/10 15:52:35] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/10 15:52:35] root INFO:                 order : hwc
[2022/08/10 15:52:35] root INFO:                 scale : 1./255.
[2022/08/10 15:52:35] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/10 15:52:35] root INFO:             ToCHWImage : None
[2022/08/10 15:52:35] root INFO:             KeepKeys : 
[2022/08/10 15:52:35] root INFO:                 keep_keys : ['image', 'threshold_map', 'threshold_mask', 'shrink_map', 'shrink_mask']
[2022/08/10 15:52:35] root INFO:     loader : 
[2022/08/10 15:52:35] root INFO:         batch_size_per_card : 32
[2022/08/10 15:52:35] root INFO:         drop_last : False
[2022/08/10 15:52:35] root INFO:         num_workers : 8
[2022/08/10 15:52:35] root INFO:         shuffle : True
[2022/08/10 15:52:35] root INFO:         use_shared_memory : False
[2022/08/10 15:52:35] root INFO: train with paddle 2.0.2 and device CUDAPlace(0)
[2022/08/10 15:52:35] root INFO: Initialize indexs of datasets:['./train_det_hebing_all.txt']
[2022/08/10 15:52:35] root INFO: Initialize indexs of datasets:['./test_det_hebing_all.txt']

In [ ]

#2.合并全量数据集+Resnet检测模型训练
%cd /home/aistudio/
!python3 PaddleOCR/tools/train.py -c PaddleOCR/configs/det/det_mv3_db_all_resnet.yml -o \
Global.eval_batch_step="[0,500]" \
Global.load_static_weights=true \
Global.checkpoints='/home/aistudio/outputall/db_resnet/best_accuracy' \
Global.pretrained_model='PaddleOCR/pretrain_models/ResNet50_vd_ssld_pretrained' \
Train.loader.batch_size_per_card=16 \
Train.dataset.data_dir='./report_ex/train_det_hebing_all' \
Train.dataset.label_file_list=['./train_det_hebing_all.txt'] \
Eval.dataset.data_dir='./report_ex/test_det_hebing_all' \
Eval.dataset.label_file_list=['./test_det_hebing_all.txt']

/home/aistudio
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/11 13:35:54] root INFO: Architecture : 
[2022/08/11 13:35:54] root INFO:     Backbone : 
[2022/08/11 13:35:54] root INFO:         model_name : large
[2022/08/11 13:35:54] root INFO:         name : ResNet
[2022/08/11 13:35:54] root INFO:         scale : 0.5
[2022/08/11 13:35:54] root INFO:     Head : 
[2022/08/11 13:35:54] root INFO:         k : 50
[2022/08/11 13:35:54] root INFO:         name : DBHead
[2022/08/11 13:35:54] root INFO:     Neck : 
[2022/08/11 13:35:54] root INFO:         name : DBFPN
[2022/08/11 13:35:54] root INFO:         out_channels : 256
[2022/08/11 13:35:54] root INFO:     Transform : None
[2022/08/11 13:35:54] root INFO:     algorithm : DB
[2022/08/11 13:35:54] root INFO:     model_type : det
[2022/08/11 13:35:54] root INFO: Eval : 
[2022/08/11 13:35:54] root INFO:     dataset : 
[2022/08/11 13:35:54] root INFO:         data_dir : ./report_ex/test_det_hebing_all
[2022/08/11 13:35:54] root INFO:         label_file_list : ['./test_det_hebing_all.txt']
[2022/08/11 13:35:54] root INFO:         name : SimpleDataSet
[2022/08/11 13:35:54] root INFO:         transforms : 
[2022/08/11 13:35:54] root INFO:             DecodeImage : 
[2022/08/11 13:35:54] root INFO:                 channel_first : False
[2022/08/11 13:35:54] root INFO:                 img_mode : BGR
[2022/08/11 13:35:54] root INFO:             DetLabelEncode : None
[2022/08/11 13:35:54] root INFO:             DetResizeForTest : 
[2022/08/11 13:35:54] root INFO:                 image_shape : [736, 1280]
[2022/08/11 13:35:54] root INFO:             NormalizeImage : 
[2022/08/11 13:35:54] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/11 13:35:54] root INFO:                 order : hwc
[2022/08/11 13:35:54] root INFO:                 scale : 1./255.
[2022/08/11 13:35:54] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/11 13:35:54] root INFO:             ToCHWImage : None
[2022/08/11 13:35:54] root INFO:             KeepKeys : 
[2022/08/11 13:35:54] root INFO:                 keep_keys : ['image', 'shape', 'polys', 'ignore_tags']
[2022/08/11 13:35:54] root INFO:     loader : 
[2022/08/11 13:35:54] root INFO:         batch_size_per_card : 1
[2022/08/11 13:35:54] root INFO:         drop_last : False
[2022/08/11 13:35:54] root INFO:         num_workers : 8
[2022/08/11 13:35:54] root INFO:         shuffle : False
[2022/08/11 13:35:54] root INFO:         use_shared_memory : False
[2022/08/11 13:35:54] root INFO: Global : 
[2022/08/11 13:35:54] root INFO:     cal_metric_during_train : False
[2022/08/11 13:35:54] root INFO:     checkpoints : /home/aistudio/outputall/db_resnet//best_accuracy
[2022/08/11 13:35:54] root INFO:     debug : False
[2022/08/11 13:35:54] root INFO:     distributed : False
[2022/08/11 13:35:54] root INFO:     epoch_num : 1200
[2022/08/11 13:35:54] root INFO:     eval_batch_step : [0, 500]
[2022/08/11 13:35:54] root INFO:     infer_img : ./20220623110401-0.png
[2022/08/11 13:35:54] root INFO:     load_static_weights : True
[2022/08/11 13:35:54] root INFO:     log_smooth_window : 20
[2022/08/11 13:35:54] root INFO:     pretrained_model : PaddleOCR/pretrain_models/ResNet50_vd_ssld_pretrained
[2022/08/11 13:35:54] root INFO:     print_batch_step : 10
[2022/08/11 13:35:54] root INFO:     save_epoch_step : 1200
[2022/08/11 13:35:54] root INFO:     save_inference_dir : None
[2022/08/11 13:35:54] root INFO:     save_model_dir : /home/aistudio/outputall/db_resnet/
[2022/08/11 13:35:54] root INFO:     save_res_path : ./outputall_resnet/det_db/predicts_db.txt
[2022/08/11 13:35:54] root INFO:     use_gpu : True
[2022/08/11 13:35:54] root INFO:     use_visualdl : False
[2022/08/11 13:35:54] root INFO: Loss : 
[2022/08/11 13:35:54] root INFO:     alpha : 5
[2022/08/11 13:35:54] root INFO:     balance_loss : True
[2022/08/11 13:35:54] root INFO:     beta : 10
[2022/08/11 13:35:54] root INFO:     main_loss_type : DiceLoss
[2022/08/11 13:35:54] root INFO:     name : DBLoss
[2022/08/11 13:35:54] root INFO:     ohem_ratio : 3
[2022/08/11 13:35:54] root INFO: Metric : 
[2022/08/11 13:35:54] root INFO:     main_indicator : hmean
[2022/08/11 13:35:54] root INFO:     name : DetMetric
[2022/08/11 13:35:54] root INFO: Optimizer : 
[2022/08/11 13:35:54] root INFO:     beta1 : 0.9
[2022/08/11 13:35:54] root INFO:     beta2 : 0.999
[2022/08/11 13:35:54] root INFO:     lr : 
[2022/08/11 13:35:54] root INFO:         learning_rate : 0.001
[2022/08/11 13:35:54] root INFO:     name : Adam
[2022/08/11 13:35:54] root INFO:     regularizer : 
[2022/08/11 13:35:54] root INFO:         factor : 0
[2022/08/11 13:35:54] root INFO:         name : L2
[2022/08/11 13:35:54] root INFO: PostProcess : 
[2022/08/11 13:35:54] root INFO:     box_thresh : 0.6
[2022/08/11 13:35:54] root INFO:     max_candidates : 1000
[2022/08/11 13:35:54] root INFO:     name : DBPostProcess
[2022/08/11 13:35:54] root INFO:     thresh : 0.3
[2022/08/11 13:35:54] root INFO:     unclip_ratio : 1.5
[2022/08/11 13:35:54] root INFO: Train : 
[2022/08/11 13:35:54] root INFO:     dataset : 
[2022/08/11 13:35:54] root INFO:         data_dir : ./report_ex/train_det_hebing_all
[2022/08/11 13:35:54] root INFO:         label_file_list : ['./train_det_hebing_all.txt']
[2022/08/11 13:35:54] root INFO:         name : SimpleDataSet
[2022/08/11 13:35:54] root INFO:         ratio_list : [1.0]
[2022/08/11 13:35:54] root INFO:         transforms : 
[2022/08/11 13:35:54] root INFO:             DecodeImage : 
[2022/08/11 13:35:54] root INFO:                 channel_first : False
[2022/08/11 13:35:54] root INFO:                 img_mode : BGR
[2022/08/11 13:35:54] root INFO:             DetLabelEncode : None
[2022/08/11 13:35:54] root INFO:             IaaAugment : 
[2022/08/11 13:35:54] root INFO:                 augmenter_args : 
[2022/08/11 13:35:54] root INFO:                     args : 
[2022/08/11 13:35:54] root INFO:                         p : 0.5
[2022/08/11 13:35:54] root INFO:                     type : Fliplr
[2022/08/11 13:35:54] root INFO:                     args : 
[2022/08/11 13:35:54] root INFO:                         rotate : [-10, 10]
[2022/08/11 13:35:54] root INFO:                     type : Affine
[2022/08/11 13:35:54] root INFO:                     args : 
[2022/08/11 13:35:54] root INFO:                         size : [0.5, 3]
[2022/08/11 13:35:54] root INFO:                     type : Resize
[2022/08/11 13:35:54] root INFO:             EastRandomCropData : 
[2022/08/11 13:35:54] root INFO:                 keep_ratio : True
[2022/08/11 13:35:54] root INFO:                 max_tries : 50
[2022/08/11 13:35:54] root INFO:                 size : [640, 640]
[2022/08/11 13:35:54] root INFO:             MakeBorderMap : 
[2022/08/11 13:35:54] root INFO:                 shrink_ratio : 0.4
[2022/08/11 13:35:54] root INFO:                 thresh_max : 0.7
[2022/08/11 13:35:54] root INFO:                 thresh_min : 0.3
[2022/08/11 13:35:54] root INFO:             MakeShrinkMap : 
[2022/08/11 13:35:54] root INFO:                 min_text_size : 8
[2022/08/11 13:35:54] root INFO:                 shrink_ratio : 0.4
[2022/08/11 13:35:54] root INFO:             NormalizeImage : 
[2022/08/11 13:35:54] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/11 13:35:54] root INFO:                 order : hwc
[2022/08/11 13:35:54] root INFO:                 scale : 1./255.
[2022/08/11 13:35:54] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/11 13:35:54] root INFO:             ToCHWImage : None
[2022/08/11 13:35:54] root INFO:             KeepKeys : 
[2022/08/11 13:35:54] root INFO:                 keep_keys : ['image', 'threshold_map', 'threshold_mask', 'shrink_map', 'shrink_mask']
[2022/08/11 13:35:54] root INFO:     loader : 
[2022/08/11 13:35:54] root INFO:         batch_size_per_card : 16
[2022/08/11 13:35:54] root INFO:         drop_last : False
[2022/08/11 13:35:54] root INFO:         num_workers : 8
[2022/08/11 13:35:54] root INFO:         shuffle : True
[2022/08/11 13:35:54] root INFO:         use_shared_memory : False
[2022/08/11 13:35:54] root INFO: train with paddle 2.0.2 and device CUDAPlace(0)
[2022/08/11 13:35:54] root INFO: Initialize indexs of datasets:['./train_det_hebing_all.txt']
[2022/08/11 13:35:54] root INFO: Initialize indexs of datasets:['./test_det_hebing_all.txt']
W0811 13:35:54.603739  1610 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0811 13:35:54.608341  1610 device_context.cc:372] device: 0, cuDNN Version: 7.6.

部分数据集训练

#3.合并后部分数据训练模版，下面显示输出是用这个训练的结果 
%cd /home/aistudio/
!python3 PaddleOCR/tools/train.py -c PaddleOCR/configs/det/det_mv3_db.yml -o \
Global.eval_batch_step="[0,50]" \
Global.load_static_weights=true \
Global.pretrained_model='PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained' \
Train.loader.batch_size_per_card=16 \
Train.dataset.data_dir='./report_ex/train_det_new1_hebing' \
Train.dataset.label_file_list=['./train_det_new1_hebing.txt'] \
Eval.dataset.data_dir='./report_ex/test_det_new1_hebing' \
Eval.dataset.label_file_list=['./test_det_new1_hebing.txt']
#3.合并后全集训练模版，可能要调batch_size_per_card大小 ,执行打开注释，注释其他，
# %cd /home/aistudio/
# !python3 PaddleOCR/tools/train.py -c PaddleOCR/configs/det/det_mv3_db.yml -o \
# Global.eval_batch_step="[0,10]" \
# Global.load_static_weights=true \
# Global.pretrained_model='PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained' \
# Train.loader.batch_size_per_card=32 \
# Train.dataset.data_dir='./report_ex/train_det_hebing_all' \
# Train.dataset.label_file_list=['./train_det_hebing_all.txt'] \
# Eval.dataset.data_dir='./report_ex/test_det_hebing_all' \
# Eval.dataset.label_file_list=['./test_det_hebing_all.txt']

/home/aistudio
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/09 09:38:47] root INFO: Architecture : 
[2022/08/09 09:38:47] root INFO:     Backbone : 
[2022/08/09 09:38:47] root INFO:         model_name : large
[2022/08/09 09:38:47] root INFO:         name : MobileNetV3
[2022/08/09 09:38:47] root INFO:         scale : 0.5
[2022/08/09 09:38:47] root INFO:     Head : 
[2022/08/09 09:38:47] root INFO:         k : 50
[2022/08/09 09:38:47] root INFO:         name : DBHead
[2022/08/09 09:38:47] root INFO:     Neck : 
[2022/08/09 09:38:47] root INFO:         name : DBFPN
[2022/08/09 09:38:47] root INFO:         out_channels : 256
[2022/08/09 09:38:47] root INFO:     Transform : None
[2022/08/09 09:38:47] root INFO:     algorithm : DB
[2022/08/09 09:38:47] root INFO:     model_type : det
[2022/08/09 09:38:47] root INFO: Eval : 
[2022/08/09 09:38:47] root INFO:     dataset : 
[2022/08/09 09:38:47] root INFO:         data_dir : ./report_ex/test_det_new1_hebing
[2022/08/09 09:38:47] root INFO:         label_file_list : ['./test_det_new1_hebing.txt']
[2022/08/09 09:38:47] root INFO:         name : SimpleDataSet
[2022/08/09 09:38:47] root INFO:         transforms : 
[2022/08/09 09:38:47] root INFO:             DecodeImage : 
[2022/08/09 09:38:47] root INFO:                 channel_first : False
[2022/08/09 09:38:47] root INFO:                 img_mode : BGR
[2022/08/09 09:38:47] root INFO:             DetLabelEncode : None
[2022/08/09 09:38:47] root INFO:             DetResizeForTest : 
[2022/08/09 09:38:47] root INFO:                 image_shape : [736, 1280]
[2022/08/09 09:38:47] root INFO:             NormalizeImage : 
[2022/08/09 09:38:47] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/09 09:38:47] root INFO:                 order : hwc
[2022/08/09 09:38:47] root INFO:                 scale : 1./255.
[2022/08/09 09:38:47] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/09 09:38:47] root INFO:             ToCHWImage : None
[2022/08/09 09:38:47] root INFO:             KeepKeys : 
[2022/08/09 09:38:47] root INFO:                 keep_keys : ['image', 'shape', 'polys', 'ignore_tags']
[2022/08/09 09:38:47] root INFO:     loader : 
[2022/08/09 09:38:47] root INFO:         batch_size_per_card : 1
[2022/08/09 09:38:47] root INFO:         drop_last : False
[2022/08/09 09:38:47] root INFO:         num_workers : 8
[2022/08/09 09:38:47] root INFO:         shuffle : False
[2022/08/09 09:38:47] root INFO:         use_shared_memory : False
[2022/08/09 09:38:47] root INFO: Global : 
[2022/08/09 09:38:47] root INFO:     cal_metric_during_train : False
[2022/08/09 09:38:47] root INFO:     checkpoints : None
[2022/08/09 09:38:47] root INFO:     debug : False
[2022/08/09 09:38:47] root INFO:     distributed : False
[2022/08/09 09:38:47] root INFO:     epoch_num : 1200
[2022/08/09 09:38:47] root INFO:     eval_batch_step : [0, 50]
[2022/08/09 09:38:47] root INFO:     infer_img : ./20220623110401-0.png
[2022/08/09 09:38:47] root INFO:     load_static_weights : True
[2022/08/09 09:38:47] root INFO:     log_smooth_window : 20
[2022/08/09 09:38:47] root INFO:     pretrained_model : PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained
[2022/08/09 09:38:47] root INFO:     print_batch_step : 10
[2022/08/09 09:38:47] root INFO:     save_epoch_step : 1200
[2022/08/09 09:38:47] root INFO:     save_inference_dir : None
[2022/08/09 09:38:47] root INFO:     save_model_dir : ./output1/db_mv3/
[2022/08/09 09:38:47] root INFO:     save_res_path : ./output1/det_db/predicts_db.txt
[2022/08/09 09:38:47] root INFO:     use_gpu : True
[2022/08/09 09:38:47] root INFO:     use_visualdl : False
[2022/08/09 09:38:47] root INFO: Loss : 
[2022/08/09 09:38:47] root INFO:     alpha : 5
[2022/08/09 09:38:47] root INFO:     balance_loss : True
[2022/08/09 09:38:47] root INFO:     beta : 10
[2022/08/09 09:38:47] root INFO:     main_loss_type : DiceLoss
[2022/08/09 09:38:47] root INFO:     name : DBLoss
[2022/08/09 09:38:47] root INFO:     ohem_ratio : 3
[2022/08/09 09:38:47] root INFO: Metric : 
[2022/08/09 09:38:47] root INFO:     main_indicator : hmean
[2022/08/09 09:38:47] root INFO:     name : DetMetric
[2022/08/09 09:38:47] root INFO: Optimizer : 
[2022/08/09 09:38:47] root INFO:     beta1 : 0.9
[2022/08/09 09:38:47] root INFO:     beta2 : 0.999
[2022/08/09 09:38:47] root INFO:     lr : 
[2022/08/09 09:38:47] root INFO:         learning_rate : 0.001
[2022/08/09 09:38:47] root INFO:     name : Adam
[2022/08/09 09:38:47] root INFO:     regularizer : 
[2022/08/09 09:38:47] root INFO:         factor : 0
[2022/08/09 09:38:47] root INFO:         name : L2
[2022/08/09 09:38:47] root INFO: PostProcess : 
[2022/08/09 09:38:47] root INFO:     box_thresh : 0.6
[2022/08/09 09:38:47] root INFO:     max_candidates : 1000
[2022/08/09 09:38:47] root INFO:     name : DBPostProcess
[2022/08/09 09:38:47] root INFO:     thresh : 0.3
[2022/08/09 09:38:47] root INFO:     unclip_ratio : 1.5
[2022/08/09 09:38:47] root INFO: Train : 
[2022/08/09 09:38:47] root INFO:     dataset : 
[2022/08/09 09:38:47] root INFO:         data_dir : ./report_ex/train_det_new1_hebing
[2022/08/09 09:38:47] root INFO:         label_file_list : ['./train_det_new1_hebing.txt']
[2022/08/09 09:38:47] root INFO:         name : SimpleDataSet
[2022/08/09 09:38:47] root INFO:         ratio_list : [1.0]
[2022/08/09 09:38:47] root INFO:         transforms : 
[2022/08/09 09:38:47] root INFO:             DecodeImage : 
[2022/08/09 09:38:47] root INFO:                 channel_first : False
[2022/08/09 09:38:47] root INFO:                 img_mode : BGR
[2022/08/09 09:38:47] root INFO:             DetLabelEncode : None
[2022/08/09 09:38:47] root INFO:             IaaAugment : 
[2022/08/09 09:38:47] root INFO:                 augmenter_args : 
[2022/08/09 09:38:47] root INFO:                     args : 
[2022/08/09 09:38:47] root INFO:                         p : 0.5
[2022/08/09 09:38:47] root INFO:                     type : Fliplr
[2022/08/09 09:38:47] root INFO:                     args : 
[2022/08/09 09:38:47] root INFO:                         rotate : [-10, 10]
[2022/08/09 09:38:47] root INFO:                     type : Affine
[2022/08/09 09:38:47] root INFO:                     args : 
[2022/08/09 09:38:47] root INFO:                         size : [0.5, 3]
[2022/08/09 09:38:47] root INFO:                     type : Resize
[2022/08/09 09:38:47] root INFO:             EastRandomCropData : 
[2022/08/09 09:38:47] root INFO:                 keep_ratio : True
[2022/08/09 09:38:47] root INFO:                 max_tries : 50
[2022/08/09 09:38:47] root INFO:                 size : [640, 640]
[2022/08/09 09:38:47] root INFO:             MakeBorderMap : 
[2022/08/09 09:38:47] root INFO:                 shrink_ratio : 0.4
[2022/08/09 09:38:47] root INFO:                 thresh_max : 0.7
[2022/08/09 09:38:47] root INFO:                 thresh_min : 0.3
[2022/08/09 09:38:47] root INFO:             MakeShrinkMap : 
[2022/08/09 09:38:47] root INFO:                 min_text_size : 8
[2022/08/09 09:38:47] root INFO:                 shrink_ratio : 0.4
[2022/08/09 09:38:47] root INFO:             NormalizeImage : 
[2022/08/09 09:38:47] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/09 09:38:47] root INFO:                 order : hwc
[2022/08/09 09:38:47] root INFO:                 scale : 1./255.
[2022/08/09 09:38:47] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/09 09:38:47] root INFO:             ToCHWImage : None
[2022/08/09 09:38:47] root INFO:             KeepKeys : 
[2022/08/09 09:38:47] root INFO:                 keep_keys : ['image', 'threshold_map', 'threshold_mask', 'shrink_map', 'shrink_mask']
[2022/08/09 09:38:47] root INFO:     loader : 
[2022/08/09 09:38:47] root INFO:         batch_size_per_card : 16
[2022/08/09 09:38:47] root INFO:         drop_last : False
[2022/08/09 09:38:47] root INFO:         num_workers : 8
[2022/08/09 09:38:47] root INFO:         shuffle : True
[2022/08/09 09:38:47] root INFO:         use_shared_memory : False
[2022/08/09 09:38:47] root INFO: train with paddle 2.0.2 and device CUDAPlace(0)
[2022/08/09 09:38:47] root INFO: Initialize indexs of datasets:['./train_det_new1_hebing.txt']
[2022/08/09 09:38:47] root INFO: Initialize indexs of datasets:['./test_det_new1_hebing.txt']
W0809 09:38:47.257441 10327 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0809 09:38:47.261169 10327 device_context.cc:372] device: 0, cuDNN Version: 7.6.
[2022/08/09 09:38:50] root INFO: load pretrained model from ['PaddleOCR/pretrain_models/MobileNetV3_large_x0_5_pretrained']
[2022/08/09 09:38:50] root INFO: train dataloader has 9 iters
[2022/08/09 09:38:50] root INFO: valid dataloader has 16 iters
[2022/08/09 09:38:50] root INFO: During the training process, after the 0th iteration, an evaluation is run every 50 iterations
[2022/08/09 09:38:50] root INFO: Initialize indexs of datasets:['./train_det_new1_hebing.txt']
[2022/08/09 09:39:51] root INFO: epoch: [1/1200], iter: 8, lr: 0.001000, loss: 7.751804, loss_shrink_maps: 4.606901, loss_threshold_maps: 2.225027, loss_binary_maps: 0.919876, reader_cost: 5.55701 s, batch_cost: 6.10987 s, samples: 140, ips: 2.29137
[2022/08/09 09:39:52] root INFO: save model in ./output1/db_mv3/latest
[2022/08/09 09:39:52] root INFO: Initialize indexs of datasets:['./train_det_new1_hebing.txt']
[2022/08/09 09:40:55] root INFO: epoch: [2/1200], iter: 10, lr: 0.001000, loss: 7.377272, loss_shrink_maps: 4.554792, loss_threshold_maps: 1.911745, loss_binary_maps: 0.910735, reader_cost: 6.11302 s, batch_cost: 6.33029 s, samples: 32, ips: 0.50551
[2022/08/09 09:40:58] root INFO: epoch: [2/1200], iter: 17, lr: 0.001000, loss: 6.610305, loss_shrink_maps: 4.466334, loss_threshold_maps: 1.255741, loss_binary_maps: 0.897122, reader_cost: 0.07724 s, batch_cost: 0.30940 s, samples: 108, ips: 34.90611
[2022/08/09 09:40:59] root INFO: save model in ./output1/db_mv3/latest
[2022/08/09 09:40:59] root INFO: Initialize indexs of datasets:['./train_det_new1_hebing.txt']
^C
main proc 11724 exit, kill process group 10327
main proc 11723 exit, kill process group 10327

2.7测试检测效果

训练过程中的检测模型保存在'./output/det_db/'中，模型保存的位置通过yml配置文件的Global.save_model_dir参数设置。

使用训练好的模型测试单张图像的检测效果。

In [ ]

# %cd PaddleOCR
#部分数据结果
# !python3 tools/infer_det.py -c configs/det/det_mv3_db.yml -o Global.infer_img="../20220623110401-0.png" Global.pretrained_model="/home/aistudio/output1/db_mv3/best_accuracy"
#全集数据结果，全集只训练一个epoch
!python3 tools/infer_det.py -c configs/det/det_mv3_db_all.yml -o Global.infer_img="../20220623110401-0.png" Global.pretrained_model="/home/aistudio/outputall/db_mv3/best_accuracy"

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/17 22:49:37] root INFO: Architecture : 
[2022/08/17 22:49:37] root INFO:     Backbone : 
[2022/08/17 22:49:37] root INFO:         model_name : large
[2022/08/17 22:49:37] root INFO:         name : MobileNetV3
[2022/08/17 22:49:37] root INFO:         scale : 0.5
[2022/08/17 22:49:37] root INFO:     Head : 
[2022/08/17 22:49:37] root INFO:         k : 50
[2022/08/17 22:49:37] root INFO:         name : DBHead
[2022/08/17 22:49:37] root INFO:     Neck : 
[2022/08/17 22:49:37] root INFO:         name : DBFPN
[2022/08/17 22:49:37] root INFO:         out_channels : 256
[2022/08/17 22:49:37] root INFO:     Transform : None
[2022/08/17 22:49:37] root INFO:     algorithm : DB
[2022/08/17 22:49:37] root INFO:     model_type : det
[2022/08/17 22:49:37] root INFO: Eval : 
[2022/08/17 22:49:37] root INFO:     dataset : 
[2022/08/17 22:49:37] root INFO:         data_dir : ./train_data/icdar2015/text_localization/
[2022/08/17 22:49:37] root INFO:         label_file_list : ['./train_data/icdar2015/text_localization/test_icdar2015_label.txt']
[2022/08/17 22:49:37] root INFO:         name : SimpleDataSet
[2022/08/17 22:49:37] root INFO:         transforms : 
[2022/08/17 22:49:37] root INFO:             DecodeImage : 
[2022/08/17 22:49:37] root INFO:                 channel_first : False
[2022/08/17 22:49:37] root INFO:                 img_mode : BGR
[2022/08/17 22:49:37] root INFO:             DetLabelEncode : None
[2022/08/17 22:49:37] root INFO:             DetResizeForTest : 
[2022/08/17 22:49:37] root INFO:                 image_shape : [736, 1280]
[2022/08/17 22:49:37] root INFO:             NormalizeImage : 
[2022/08/17 22:49:37] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/17 22:49:37] root INFO:                 order : hwc
[2022/08/17 22:49:37] root INFO:                 scale : 1./255.
[2022/08/17 22:49:37] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/17 22:49:37] root INFO:             ToCHWImage : None
[2022/08/17 22:49:37] root INFO:             KeepKeys : 
[2022/08/17 22:49:37] root INFO:                 keep_keys : ['image', 'shape', 'polys', 'ignore_tags']
[2022/08/17 22:49:37] root INFO:     loader : 
[2022/08/17 22:49:37] root INFO:         batch_size_per_card : 1
[2022/08/17 22:49:37] root INFO:         drop_last : False
[2022/08/17 22:49:37] root INFO:         num_workers : 8
[2022/08/17 22:49:37] root INFO:         shuffle : False
[2022/08/17 22:49:37] root INFO:         use_shared_memory : False
[2022/08/17 22:49:37] root INFO: Global : 
[2022/08/17 22:49:37] root INFO:     cal_metric_during_train : False
[2022/08/17 22:49:37] root INFO:     checkpoints : None
[2022/08/17 22:49:37] root INFO:     debug : False
[2022/08/17 22:49:37] root INFO:     distributed : False
[2022/08/17 22:49:37] root INFO:     epoch_num : 1200
[2022/08/17 22:49:37] root INFO:     eval_batch_step : [0, 2000]
[2022/08/17 22:49:37] root INFO:     infer_img : ../20220623110401-0.png
[2022/08/17 22:49:37] root INFO:     log_smooth_window : 20
[2022/08/17 22:49:37] root INFO:     pretrained_model : /home/aistudio/outputall/db_mv3/best_accuracy
[2022/08/17 22:49:37] root INFO:     print_batch_step : 10
[2022/08/17 22:49:37] root INFO:     save_epoch_step : 1200
[2022/08/17 22:49:37] root INFO:     save_inference_dir : None
[2022/08/17 22:49:37] root INFO:     save_model_dir : /home/aistudio/outputall/db_mv3/
[2022/08/17 22:49:37] root INFO:     save_res_path : ./outputall/det_db/predicts_db.txt
[2022/08/17 22:49:37] root INFO:     use_gpu : True
[2022/08/17 22:49:37] root INFO:     use_visualdl : False
[2022/08/17 22:49:37] root INFO: Loss : 
[2022/08/17 22:49:37] root INFO:     alpha : 5
[2022/08/17 22:49:37] root INFO:     balance_loss : True
[2022/08/17 22:49:37] root INFO:     beta : 10
[2022/08/17 22:49:37] root INFO:     main_loss_type : DiceLoss
[2022/08/17 22:49:37] root INFO:     name : DBLoss
[2022/08/17 22:49:37] root INFO:     ohem_ratio : 3
[2022/08/17 22:49:37] root INFO: Metric : 
[2022/08/17 22:49:37] root INFO:     main_indicator : hmean
[2022/08/17 22:49:37] root INFO:     name : DetMetric
[2022/08/17 22:49:37] root INFO: Optimizer : 
[2022/08/17 22:49:37] root INFO:     beta1 : 0.9
[2022/08/17 22:49:37] root INFO:     beta2 : 0.999
[2022/08/17 22:49:37] root INFO:     lr : 
[2022/08/17 22:49:37] root INFO:         learning_rate : 0.001
[2022/08/17 22:49:37] root INFO:     name : Adam
[2022/08/17 22:49:37] root INFO:     regularizer : 
[2022/08/17 22:49:37] root INFO:         factor : 0
[2022/08/17 22:49:37] root INFO:         name : L2
[2022/08/17 22:49:37] root INFO: PostProcess : 
[2022/08/17 22:49:37] root INFO:     box_thresh : 0.6
[2022/08/17 22:49:37] root INFO:     max_candidates : 1000
[2022/08/17 22:49:37] root INFO:     name : DBPostProcess
[2022/08/17 22:49:37] root INFO:     thresh : 0.3
[2022/08/17 22:49:37] root INFO:     unclip_ratio : 1.5
[2022/08/17 22:49:37] root INFO: Train : 
[2022/08/17 22:49:37] root INFO:     dataset : 
[2022/08/17 22:49:37] root INFO:         data_dir : ./train_data/icdar2015/text_localization/
[2022/08/17 22:49:37] root INFO:         label_file_list : ['./train_data/icdar2015/text_localization/train_icdar2015_label.txt']
[2022/08/17 22:49:37] root INFO:         name : SimpleDataSet
[2022/08/17 22:49:37] root INFO:         ratio_list : [1.0]
[2022/08/17 22:49:37] root INFO:         transforms : 
[2022/08/17 22:49:37] root INFO:             DecodeImage : 
[2022/08/17 22:49:37] root INFO:                 channel_first : False
[2022/08/17 22:49:37] root INFO:                 img_mode : BGR
[2022/08/17 22:49:37] root INFO:             DetLabelEncode : None
[2022/08/17 22:49:37] root INFO:             IaaAugment : 
[2022/08/17 22:49:37] root INFO:                 augmenter_args : 
[2022/08/17 22:49:37] root INFO:                     args : 
[2022/08/17 22:49:37] root INFO:                         p : 0.5
[2022/08/17 22:49:37] root INFO:                     type : Fliplr
[2022/08/17 22:49:37] root INFO:                     args : 
[2022/08/17 22:49:37] root INFO:                         rotate : [-10, 10]
[2022/08/17 22:49:37] root INFO:                     type : Affine
[2022/08/17 22:49:37] root INFO:                     args : 
[2022/08/17 22:49:37] root INFO:                         size : [0.5, 3]
[2022/08/17 22:49:37] root INFO:                     type : Resize
[2022/08/17 22:49:37] root INFO:             EastRandomCropData : 
[2022/08/17 22:49:37] root INFO:                 keep_ratio : True
[2022/08/17 22:49:37] root INFO:                 max_tries : 50
[2022/08/17 22:49:37] root INFO:                 size : [640, 640]
[2022/08/17 22:49:37] root INFO:             MakeBorderMap : 
[2022/08/17 22:49:37] root INFO:                 shrink_ratio : 0.4
[2022/08/17 22:49:37] root INFO:                 thresh_max : 0.7
[2022/08/17 22:49:37] root INFO:                 thresh_min : 0.3
[2022/08/17 22:49:37] root INFO:             MakeShrinkMap : 
[2022/08/17 22:49:37] root INFO:                 min_text_size : 8
[2022/08/17 22:49:37] root INFO:                 shrink_ratio : 0.4
[2022/08/17 22:49:37] root INFO:             NormalizeImage : 
[2022/08/17 22:49:37] root INFO:                 mean : [0.485, 0.456, 0.406]
[2022/08/17 22:49:37] root INFO:                 order : hwc
[2022/08/17 22:49:37] root INFO:                 scale : 1./255.
[2022/08/17 22:49:37] root INFO:                 std : [0.229, 0.224, 0.225]
[2022/08/17 22:49:37] root INFO:             ToCHWImage : None
[2022/08/17 22:49:37] root INFO:             KeepKeys : 
[2022/08/17 22:49:37] root INFO:                 keep_keys : ['image', 'threshold_map', 'threshold_mask', 'shrink_map', 'shrink_mask']
[2022/08/17 22:49:37] root INFO:     loader : 
[2022/08/17 22:49:37] root INFO:         batch_size_per_card : 64
[2022/08/17 22:49:37] root INFO:         drop_last : False
[2022/08/17 22:49:37] root INFO:         num_workers : 8
[2022/08/17 22:49:37] root INFO:         shuffle : True
[2022/08/17 22:49:37] root INFO:         use_shared_memory : False
[2022/08/17 22:49:37] root INFO: train with paddle 2.0.2 and device CUDAPlace(0)
W0817 22:49:37.830164  5900 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0817 22:49:37.835045  5900 device_context.cc:372] device: 0, cuDNN Version: 7.6.
[2022/08/17 22:49:40] root INFO: load pretrained model from ['/home/aistudio/outputall/db_mv3/best_accuracy']
[2022/08/17 22:49:40] root INFO: infer_img: ../20220623110401-0.png
[2022/08/17 22:49:41] root INFO: The detected Image saved in ./outputall/det_db/det_results/20220623110401-0.png
[2022/08/17 22:49:41] root INFO: success!

In [ ]

# %cd PaddleOCR/
# !python3 tools/infer_det.py -c configs/det/det_mv3_db.yml -o Global.infer_img="../20220623110401-0.png"  Global.checkpoints="./output/db_mv3/best_accuracy"

使用训练好的模型，测试文件夹下所有图像的检测效果,路径按需更改！下同。

In [ ]

#!python3 tools/infer_det.py -c configs/det/det_mv3_db.yml -o Global.infer_img="./doc/imgs_en/"  Global.checkpoints="./output/db_mv3/best_accuracy"

3. 训练文字识别模型

3.1. 数据准备

首先请将训练图片放入同一个文件夹（trainimages），并用一个txt文件（recgttrain.txt）记录图片路径和标签。

本项目识别使用的数据集： train_reg.txt 、test_reg.txt ，注意：默认请将图片路径和图片标签用 \t 分割。

txt训练集

" 图像文件名                 图像标注信息 "

  20220623110401-0.png   姓名：张某某

训练集及测试集文件结构如下：

    |- train_reg.txt
    |- report_ex/
    	|- train_reg
           |- word_001.png
           |- word_002.jpg
           | ...
    	|- test_reg
           |- word_001.png
           |- word_002.jpg
           | ...

### 3.2. 快速启动训练

本节文字识别网络以 CRNN 识别模型为例，网络模型使用PaddleOCR主流两种识别模型backbone，MobileNetV3和ResNet50_vd ：

In [ ]

# 下载ResNet50的预训练模型
%cd PaddleOCR/
!wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar
! cd pretrain_models/ && tar xf rec_mv3_none_bilstm_ctc_v2.0_train.tar

/home/aistudio/PaddleOCR
--2022-08-05 14:11:03--  https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar
Resolving paddleocr.bj.bcebos.com (paddleocr.bj.bcebos.com)... 100.67.200.6
Connecting to paddleocr.bj.bcebos.com (paddleocr.bj.bcebos.com)|100.67.200.6|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 51200000 (49M) [application/x-tar]
Saving to: ‘./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train.tar.1’

rec_mv3_none_bilstm 100%[===================>]  48.83M   119MB/s    in 0.4s    

2022-08-05 14:11:03 (119 MB/s) - ‘./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train.tar.1’ saved [51200000/51200000]

In [12]

#rec.py为按坐标截取图片脚本，将原来一张图片的所有标注截取成多张，生成new_pngs图像文件夹并生成对应rec.txt，用于识别模型
%cd /home/aistudio/
!python ./rec.py

In [ ]

#查看当前文件夹图片数量
%cd ./new_pngs
!ls -l | grep "^-" | wc -l   #一共1490577张图片

/home/aistudio/new_pngs
1492727

In [ ]

#切分训练与测试数据集
%cd /home/aistudio/
!python ./rec_split_data.py

/home/aistudio
2150

In [ ]

#拷贝训练集与测试集对应图片到文件夹用于文字识别训练，执行方法同上,需要执行两次，一次 train ,一次test
!python rec_file.py

3.文字识别训练

本次文字识别训练因为服务器内存原因，只跑小部分数据集，模型只做基础演示，后续可调节参数或更换网络模型进行训练。

In [ ]

%cd PaddleOCR/
!python3 ./tools/train.py -c ./configs/rec/rec_icdar15_train.yml -o \
Global.eval_batch_step="[0,100]" \
Global.save_epoch_step=500 \
Global.pretrained_model='./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train/best_accuracy' \
Train.dataset.data_dir='../report_ex/train_rec' \
Train.dataset.label_file_list=['../train_rec.txt'] \
Eval.dataset.data_dir='../report_ex/test_rec' \
Eval.dataset.label_file_list=['../test_rec.txt'] \
Optimizer.lr.learning_rate=0.001

[Errno 2] No such file or directory: 'PaddleOCR//'
/home/aistudio/PaddleOCR
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/09 08:47:02] root INFO: Architecture : 
[2022/08/09 08:47:02] root INFO:     Backbone : 
[2022/08/09 08:47:02] root INFO:         model_name : large
[2022/08/09 08:47:02] root INFO:         name : MobileNetV3
[2022/08/09 08:47:02] root INFO:         scale : 0.5
[2022/08/09 08:47:02] root INFO:     Head : 
[2022/08/09 08:47:02] root INFO:         fc_decay : 0
[2022/08/09 08:47:02] root INFO:         name : CTCHead
[2022/08/09 08:47:02] root INFO:     Neck : 
[2022/08/09 08:47:02] root INFO:         encoder_type : rnn
[2022/08/09 08:47:02] root INFO:         hidden_size : 96
[2022/08/09 08:47:02] root INFO:         name : SequenceEncoder
[2022/08/09 08:47:02] root INFO:     Transform : None
[2022/08/09 08:47:02] root INFO:     algorithm : CRNN
[2022/08/09 08:47:02] root INFO:     model_type : rec
[2022/08/09 08:47:02] root INFO: Eval : 
[2022/08/09 08:47:02] root INFO:     dataset : 
[2022/08/09 08:47:02] root INFO:         data_dir : ../report_ex/test_rec
[2022/08/09 08:47:02] root INFO:         label_file_list : ['../test_rec.txt']
[2022/08/09 08:47:02] root INFO:         name : SimpleDataSet
[2022/08/09 08:47:02] root INFO:         transforms : 
[2022/08/09 08:47:02] root INFO:             DecodeImage : 
[2022/08/09 08:47:02] root INFO:                 channel_first : False
[2022/08/09 08:47:02] root INFO:                 img_mode : BGR
[2022/08/09 08:47:02] root INFO:             CTCLabelEncode : None
[2022/08/09 08:47:02] root INFO:             RecResizeImg : 
[2022/08/09 08:47:02] root INFO:                 image_shape : [3, 32, 100]
[2022/08/09 08:47:02] root INFO:             KeepKeys : 
[2022/08/09 08:47:02] root INFO:                 keep_keys : ['image', 'label', 'length']
[2022/08/09 08:47:02] root INFO:     loader : 
[2022/08/09 08:47:02] root INFO:         batch_size_per_card : 256
[2022/08/09 08:47:02] root INFO:         drop_last : False
[2022/08/09 08:47:02] root INFO:         num_workers : 4
[2022/08/09 08:47:02] root INFO:         shuffle : False
[2022/08/09 08:47:02] root INFO:         use_shared_memory : False
[2022/08/09 08:47:02] root INFO: Global : 
[2022/08/09 08:47:02] root INFO:     cal_metric_during_train : True
[2022/08/09 08:47:02] root INFO:     character_dict_path : ../label_list.txt
[2022/08/09 08:47:02] root INFO:     character_type : ch
[2022/08/09 08:47:02] root INFO:     checkpoints : None
[2022/08/09 08:47:02] root INFO:     debug : False
[2022/08/09 08:47:02] root INFO:     distributed : False
[2022/08/09 08:47:02] root INFO:     epoch_num : 100
[2022/08/09 08:47:02] root INFO:     eval_batch_step : [0, 100]
[2022/08/09 08:47:02] root INFO:     infer_img : ./20220623110401-0.png
[2022/08/09 08:47:02] root INFO:     infer_mode : False
[2022/08/09 08:47:02] root INFO:     log_smooth_window : 20
[2022/08/09 08:47:02] root INFO:     max_text_length : 25
[2022/08/09 08:47:02] root INFO:     pretrained_model : ./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train/best_accuracy
[2022/08/09 08:47:02] root INFO:     print_batch_step : 100
[2022/08/09 08:47:02] root INFO:     save_epoch_step : 100
[2022/08/09 08:47:02] root INFO:     save_inference_dir : None
[2022/08/09 08:47:02] root INFO:     save_model_dir : ./output/rec/
[2022/08/09 08:47:02] root INFO:     save_res_path : ./output/rec/predicts.txt
[2022/08/09 08:47:02] root INFO:     use_gpu : True
[2022/08/09 08:47:02] root INFO:     use_space_char : False
[2022/08/09 08:47:02] root INFO:     use_visualdl : False
[2022/08/09 08:47:02] root INFO: Loss : 
[2022/08/09 08:47:02] root INFO:     name : CTCLoss
[2022/08/09 08:47:02] root INFO: Metric : 
[2022/08/09 08:47:02] root INFO:     main_indicator : acc
[2022/08/09 08:47:02] root INFO:     name : RecMetric
[2022/08/09 08:47:02] root INFO: Optimizer : 
[2022/08/09 08:47:02] root INFO:     beta1 : 0.9
[2022/08/09 08:47:02] root INFO:     beta2 : 0.999
[2022/08/09 08:47:02] root INFO:     lr : 
[2022/08/09 08:47:02] root INFO:         learning_rate : 0.001
[2022/08/09 08:47:02] root INFO:     name : Adam
[2022/08/09 08:47:02] root INFO:     regularizer : 
[2022/08/09 08:47:02] root INFO:         factor : 0
[2022/08/09 08:47:02] root INFO:         name : L2
[2022/08/09 08:47:02] root INFO: PostProcess : 
[2022/08/09 08:47:02] root INFO:     name : CTCLabelDecode
[2022/08/09 08:47:02] root INFO: Train : 
[2022/08/09 08:47:02] root INFO:     dataset : 
[2022/08/09 08:47:02] root INFO:         data_dir : ../report_ex/train_rec
[2022/08/09 08:47:02] root INFO:         label_file_list : ['../train_rec.txt']
[2022/08/09 08:47:02] root INFO:         name : SimpleDataSet
[2022/08/09 08:47:02] root INFO:         transforms : 
[2022/08/09 08:47:02] root INFO:             DecodeImage : 
[2022/08/09 08:47:02] root INFO:                 channel_first : False
[2022/08/09 08:47:02] root INFO:                 img_mode : BGR
[2022/08/09 08:47:02] root INFO:             CTCLabelEncode : None
[2022/08/09 08:47:02] root INFO:             RecResizeImg : 
[2022/08/09 08:47:02] root INFO:                 image_shape : [3, 32, 100]
[2022/08/09 08:47:02] root INFO:             KeepKeys : 
[2022/08/09 08:47:02] root INFO:                 keep_keys : ['image', 'label', 'length']
[2022/08/09 08:47:02] root INFO:     loader : 
[2022/08/09 08:47:02] root INFO:         batch_size_per_card : 256
[2022/08/09 08:47:02] root INFO:         drop_last : True
[2022/08/09 08:47:02] root INFO:         num_workers : 8
[2022/08/09 08:47:02] root INFO:         shuffle : True
[2022/08/09 08:47:02] root INFO:         use_shared_memory : False
[2022/08/09 08:47:02] root INFO: train with paddle 2.0.2 and device CUDAPlace(0)
[2022/08/09 08:47:02] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:47:02] root INFO: Initialize indexs of datasets:['../test_rec.txt']
W0809 08:47:02.545296  3246 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0809 08:47:02.548940  3246 device_context.cc:372] device: 0, cuDNN Version: 7.6.
2022-08-09 08:47:05,035 - INFO - If regularizer of a Parameter has been set by 'paddle.ParamAttr' or 'static.WeightNormParamAttr' already. The weight_decay[L2Decay, regularization_coeff=0.000000] in Optimizer will not take effect, and it will only be applied to other Parameters!
[2022/08/09 08:47:05] root INFO: load pretrained model from ['./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train/best_accuracy']
[2022/08/09 08:47:05] root INFO: train dataloader has 7 iters
[2022/08/09 08:47:05] root INFO: valid dataloader has 1 iters
[2022/08/09 08:47:05] root INFO: During the training process, after the 0th iteration, an evaluation is run every 100 iterations
eval model:: 100%|████████████████████████████████| 1/1 [00:00<00:00,  1.64it/s]
[2022/08/09 08:50:29] root INFO: cur metric, acc: 0.5062761506276151, norm_edit_dis: 0.7929171366686749, fps: 3181.1431744832903
[2022/08/09 08:50:30] root INFO: save best model is to ./output/rec/best_accuracy
[2022/08/09 08:50:30] root INFO: best metric, acc: 0.5062761506276151, norm_edit_dis: 0.7929171366686749, fps: 3181.1431744832903, best_epoch: 86
[2022/08/09 08:50:30] root INFO: epoch: [86/100], iter: 601, lr: 0.001000, loss: 2.796403, acc: 0.519531, norm_edit_dis: 0.831250, reader_cost: 0.00002 s, batch_cost: 0.00133 s, samples: 256, ips: 1925.17934
[2022/08/09 08:50:30] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:30] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:32] root INFO: epoch: [87/100], iter: 608, lr: 0.001000, loss: 2.669565, acc: 0.542969, norm_edit_dis: 0.835502, reader_cost: 0.00819 s, batch_cost: 0.01664 s, samples: 1792, ips: 1076.79762
[2022/08/09 08:50:33] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:33] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:35] root INFO: epoch: [88/100], iter: 615, lr: 0.001000, loss: 2.684035, acc: 0.552734, norm_edit_dis: 0.843117, reader_cost: 0.00747 s, batch_cost: 0.01662 s, samples: 1792, ips: 1078.17574
[2022/08/09 08:50:35] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:35] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:37] root INFO: epoch: [89/100], iter: 622, lr: 0.001000, loss: 2.511953, acc: 0.554688, norm_edit_dis: 0.844917, reader_cost: 0.00842 s, batch_cost: 0.01714 s, samples: 1792, ips: 1045.68432
[2022/08/09 08:50:38] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:38] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:40] root INFO: epoch: [90/100], iter: 629, lr: 0.001000, loss: 2.481447, acc: 0.562500, norm_edit_dis: 0.847279, reader_cost: 0.00735 s, batch_cost: 0.01727 s, samples: 1792, ips: 1037.49143
[2022/08/09 08:50:40] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:40] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:42] root INFO: epoch: [91/100], iter: 636, lr: 0.001000, loss: 2.463750, acc: 0.580078, norm_edit_dis: 0.857158, reader_cost: 0.00820 s, batch_cost: 0.01770 s, samples: 1792, ips: 1012.58188
[2022/08/09 08:50:43] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:43] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:45] root INFO: epoch: [92/100], iter: 643, lr: 0.001000, loss: 2.466842, acc: 0.595703, norm_edit_dis: 0.862211, reader_cost: 0.00826 s, batch_cost: 0.01762 s, samples: 1792, ips: 1017.25276
[2022/08/09 08:50:45] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:45] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:47] root INFO: epoch: [93/100], iter: 650, lr: 0.001000, loss: 2.466842, acc: 0.611328, norm_edit_dis: 0.868967, reader_cost: 0.00813 s, batch_cost: 0.01704 s, samples: 1792, ips: 1051.46489
[2022/08/09 08:50:48] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:48] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:50] root INFO: epoch: [94/100], iter: 657, lr: 0.001000, loss: 2.242416, acc: 0.632812, norm_edit_dis: 0.876017, reader_cost: 0.00886 s, batch_cost: 0.01761 s, samples: 1792, ips: 1017.45601
[2022/08/09 08:50:51] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:51] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:52] root INFO: epoch: [95/100], iter: 664, lr: 0.001000, loss: 2.196207, acc: 0.640625, norm_edit_dis: 0.881983, reader_cost: 0.00792 s, batch_cost: 0.01659 s, samples: 1792, ips: 1080.27781
[2022/08/09 08:50:53] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:53] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:55] root INFO: epoch: [96/100], iter: 671, lr: 0.001000, loss: 2.113156, acc: 0.648438, norm_edit_dis: 0.882381, reader_cost: 0.00960 s, batch_cost: 0.01858 s, samples: 1792, ips: 964.26967
[2022/08/09 08:50:56] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:56] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:50:58] root INFO: epoch: [97/100], iter: 678, lr: 0.001000, loss: 2.080866, acc: 0.656250, norm_edit_dis: 0.883170, reader_cost: 0.00756 s, batch_cost: 0.01682 s, samples: 1792, ips: 1065.37528
[2022/08/09 08:50:58] root INFO: save model in ./output/rec/latest
[2022/08/09 08:50:58] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:51:00] root INFO: epoch: [98/100], iter: 685, lr: 0.001000, loss: 2.028392, acc: 0.660156, norm_edit_dis: 0.885557, reader_cost: 0.00843 s, batch_cost: 0.01686 s, samples: 1792, ips: 1062.57177
[2022/08/09 08:51:01] root INFO: save model in ./output/rec/latest
[2022/08/09 08:51:01] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:51:03] root INFO: epoch: [99/100], iter: 692, lr: 0.001000, loss: 1.941369, acc: 0.671875, norm_edit_dis: 0.890019, reader_cost: 0.00725 s, batch_cost: 0.01653 s, samples: 1792, ips: 1084.06991
[2022/08/09 08:51:03] root INFO: save model in ./output/rec/latest
[2022/08/09 08:51:03] root INFO: Initialize indexs of datasets:['../train_rec.txt']
[2022/08/09 08:51:05] root INFO: epoch: [100/100], iter: 699, lr: 0.001000, loss: 1.861010, acc: 0.691406, norm_edit_dis: 0.898171, reader_cost: 0.00835 s, batch_cost: 0.01703 s, samples: 1792, ips: 1052.16714
[2022/08/09 08:51:06] root INFO: save model in ./output/rec/latest
[2022/08/09 08:51:06] root INFO: save model in ./output/rec/iter_epoch_100
[2022/08/09 08:51:06] root INFO: best metric, acc: 0.5062761506276151, norm_edit_dis: 0.7929171366686749, fps: 3181.1431744832903, best_epoch: 86

3.2测试识别效果

测试单张图像的识别结果

# !python3 tools/infer_rec.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train/best_accuracy Global.infer_img=../20220623110401-0.png
!python3 tools/infer_rec.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./output/rec/best_accuracy Global.infer_img=../report_ex/test_rec/20220623110401-1001_0119.png

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/17 23:45:05] root INFO: Architecture : 
[2022/08/17 23:45:05] root INFO:     Backbone : 
[2022/08/17 23:45:05] root INFO:         model_name : large
[2022/08/17 23:45:05] root INFO:         name : MobileNetV3
[2022/08/17 23:45:05] root INFO:         scale : 0.5
[2022/08/17 23:45:05] root INFO:     Head : 
[2022/08/17 23:45:05] root INFO:         fc_decay : 0
[2022/08/17 23:45:05] root INFO:         name : CTCHead
[2022/08/17 23:45:05] root INFO:     Neck : 
[2022/08/17 23:45:05] root INFO:         encoder_type : rnn
[2022/08/17 23:45:05] root INFO:         hidden_size : 96
[2022/08/17 23:45:05] root INFO:         name : SequenceEncoder
[2022/08/17 23:45:05] root INFO:     Transform : None
[2022/08/17 23:45:05] root INFO:     algorithm : CRNN
[2022/08/17 23:45:05] root INFO:     model_type : rec
[2022/08/17 23:45:05] root INFO: Eval : 
[2022/08/17 23:45:05] root INFO:     dataset : 
[2022/08/17 23:45:05] root INFO:         data_dir : ./train_data/
[2022/08/17 23:45:05] root INFO:         label_file_list : ['./train_data/val_list.txt']
[2022/08/17 23:45:05] root INFO:         name : SimpleDataSet
[2022/08/17 23:45:05] root INFO:         transforms : 
[2022/08/17 23:45:05] root INFO:             DecodeImage : 
[2022/08/17 23:45:05] root INFO:                 channel_first : False
[2022/08/17 23:45:05] root INFO:                 img_mode : BGR
[2022/08/17 23:45:05] root INFO:             CTCLabelEncode : None
[2022/08/17 23:45:05] root INFO:             RecResizeImg : 
[2022/08/17 23:45:05] root INFO:                 image_shape : [3, 32, 100]
[2022/08/17 23:45:05] root INFO:             KeepKeys : 
[2022/08/17 23:45:05] root INFO:                 keep_keys : ['image', 'label', 'length']
[2022/08/17 23:45:05] root INFO:     loader : 
[2022/08/17 23:45:05] root INFO:         batch_size_per_card : 256
[2022/08/17 23:45:05] root INFO:         drop_last : False
[2022/08/17 23:45:05] root INFO:         num_workers : 4
[2022/08/17 23:45:05] root INFO:         shuffle : False
[2022/08/17 23:45:05] root INFO:         use_shared_memory : False
[2022/08/17 23:45:05] root INFO: Global : 
[2022/08/17 23:45:05] root INFO:     cal_metric_during_train : True
[2022/08/17 23:45:05] root INFO:     character_dict_path : ../label_list.txt
[2022/08/17 23:45:05] root INFO:     character_type : ch
[2022/08/17 23:45:05] root INFO:     checkpoints : ./output/rec/best_accuracy
[2022/08/17 23:45:05] root INFO:     debug : False
[2022/08/17 23:45:05] root INFO:     distributed : False
[2022/08/17 23:45:05] root INFO:     epoch_num : 100
[2022/08/17 23:45:05] root INFO:     eval_batch_step : [0, 2000]
[2022/08/17 23:45:05] root INFO:     infer_img : ../report_ex/test_rec/20220623110401-1001_0119.png
[2022/08/17 23:45:05] root INFO:     infer_mode : False
[2022/08/17 23:45:05] root INFO:     log_smooth_window : 20
[2022/08/17 23:45:05] root INFO:     max_text_length : 25
[2022/08/17 23:45:05] root INFO:     pretrained_model : None
[2022/08/17 23:45:05] root INFO:     print_batch_step : 100
[2022/08/17 23:45:05] root INFO:     save_epoch_step : 3
[2022/08/17 23:45:05] root INFO:     save_inference_dir : None
[2022/08/17 23:45:05] root INFO:     save_model_dir : ./output/rec/
[2022/08/17 23:45:05] root INFO:     save_res_path : ./output/rec/predicts.txt
[2022/08/17 23:45:05] root INFO:     use_gpu : True
[2022/08/17 23:45:05] root INFO:     use_space_char : False
[2022/08/17 23:45:05] root INFO:     use_visualdl : False
[2022/08/17 23:45:05] root INFO: Loss : 
[2022/08/17 23:45:05] root INFO:     name : CTCLoss
[2022/08/17 23:45:05] root INFO: Metric : 
[2022/08/17 23:45:05] root INFO:     main_indicator : acc
[2022/08/17 23:45:05] root INFO:     name : RecMetric
[2022/08/17 23:45:05] root INFO: Optimizer : 
[2022/08/17 23:45:05] root INFO:     beta1 : 0.9
[2022/08/17 23:45:05] root INFO:     beta2 : 0.999
[2022/08/17 23:45:05] root INFO:     lr : 
[2022/08/17 23:45:05] root INFO:         learning_rate : 0.0005
[2022/08/17 23:45:05] root INFO:     name : Adam
[2022/08/17 23:45:05] root INFO:     regularizer : 
[2022/08/17 23:45:05] root INFO:         factor : 0
[2022/08/17 23:45:05] root INFO:         name : L2
[2022/08/17 23:45:05] root INFO: PostProcess : 
[2022/08/17 23:45:05] root INFO:     name : CTCLabelDecode
[2022/08/17 23:45:05] root INFO: Train : 
[2022/08/17 23:45:05] root INFO:     dataset : 
[2022/08/17 23:45:05] root INFO:         data_dir : ./train_data/
[2022/08/17 23:45:05] root INFO:         label_file_list : ['./train_data/train_list.txt']
[2022/08/17 23:45:05] root INFO:         name : SimpleDataSet
[2022/08/17 23:45:05] root INFO:         transforms : 
[2022/08/17 23:45:05] root INFO:             DecodeImage : 
[2022/08/17 23:45:05] root INFO:                 channel_first : False
[2022/08/17 23:45:05] root INFO:                 img_mode : BGR
[2022/08/17 23:45:05] root INFO:             CTCLabelEncode : None
[2022/08/17 23:45:05] root INFO:             RecResizeImg : 
[2022/08/17 23:45:05] root INFO:                 image_shape : [3, 32, 100]
[2022/08/17 23:45:05] root INFO:             KeepKeys : 
[2022/08/17 23:45:05] root INFO:                 keep_keys : ['image', 'label', 'length']
[2022/08/17 23:45:05] root INFO:     loader : 
[2022/08/17 23:45:05] root INFO:         batch_size_per_card : 256
[2022/08/17 23:45:05] root INFO:         drop_last : True
[2022/08/17 23:45:05] root INFO:         num_workers : 8
[2022/08/17 23:45:05] root INFO:         shuffle : True
[2022/08/17 23:45:05] root INFO:         use_shared_memory : False
[2022/08/17 23:45:05] root INFO: train with paddle 2.0.2 and device CUDAPlace(0)
W0817 23:45:05.465901 12119 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0817 23:45:05.470815 12119 device_context.cc:372] device: 0, cuDNN Version: 7.6.
[2022/08/17 23:45:08] root INFO: resume from ./output/rec/best_accuracy
[2022/08/17 23:45:08] root INFO: infer_img: ../report_ex/test_rec/20220623110401-1001_0119.png
[2022/08/17 23:45:08] root INFO: 	 result: ('阴性', 0.89460135)
[2022/08/17 23:45:08] root INFO: success!

In [ ]

import matplotlib.pyplot as plt
from PIL import Image
%pylab inline

def show_img(img_path,figsize=(10,10)):
    ## 显示原图，读取名称为11.jpg的测试图像
    img = Image.open(img_path)
    plt.figure("test_img", figsize=figsize)
    plt.imshow(img)
    plt.show()
show_img("../report_ex/test_rec/20220623110401-1001_0119.png")

Populating the interactive namespace from numpy and matplotlib

测试文件夹下所有图像的文字识别效果,根据自身需要自行测试

In [ ]

!python3 tools/infer_rec.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./output/rec_CRNN/best_accuracy Global.infer_img=./doc/imgs_words_en/

4.导出inference模型

In [ ]

!cp ./data/data164761/best_accuracy.pdopt ./outputall/rec
!cp ./data/data164761/best_accuracy.pdparams ./outputall/rec

In [ ]

#1.导出检测模型
%cd PaddleOCR/
!python tools/export_model.py -c configs/det/det_mv3_db_all.yml \
-o Global.pretrained_model="../outputall/db_mv3/best_accuracy" \
Global.save_inference_dir="./my_det_model"

/home/aistudio/PaddleOCR
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
W0817 22:11:30.547513  1528 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0817 22:11:30.552330  1528 device_context.cc:372] device: 0, cuDNN Version: 7.6.
[2022/08/17 22:11:33] root INFO: load pretrained model from ['../outputall/db_mv3/best_accuracy']
[2022/08/17 22:11:34] root INFO: inference model is saved to ./my_det_model/inference

In [ ]

#2.
%cd PaddleOCR/
!python tools/export_model.py -c configs/rec/ch_PP-OCRv3_rec_distillation.yml \
-o Global.pretrained_model="../outputall/rec/best_accuracy" \
Global.save_inference_dir="./my_rec_model"

#3.导出上述代码生成的识别模型
%cd PaddleOCR/
!python tools/export_model.py -c configs/rec/rec_icdar15_train.yml \
-o Global.pretrained_model="./output/rec/best_accuracy" \
Global.save_inference_dir="./my_zj_rec_model"

/home/aistudio/PaddleOCR
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
W0820 10:01:46.662283  1446 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 10.1
W0820 10:01:46.666363  1446 device_context.cc:372] device: 0, cuDNN Version: 7.6.
[2022/08/20 10:01:49] root INFO: load pretrained model from ['./output/rec/best_accuracy']
[2022/08/20 10:01:50] root INFO: inference model is saved to ./my_zj_rec_model/inference

# 检测+识别
!pwd
%cd PaddleOCR
# !python3 ./tools/infer/predict_system.py --image_dir="../report_ex/test_rec/20220623110401-1006_0123.png" \
!python3 ./tools/infer/predict_system.py --image_dir="../report_ex/pngs/20220623110401-101.png" \
--det_model_dir="./my_det_model/"  \    #使用上述代码生成的检测模型
--rec_model_dir="./my_zj_rec_model/" \  #使用上述代码生成的识别模型
#--rec_model_dir="./inference/ch_ppocr_mobile_v2.0_rec_infer" \   #使用官方识别模型

/home/aistudio/PaddleOCR
[Errno 2] No such file or directory: 'PaddleOCR'
/home/aistudio/PaddleOCR
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
[2022/08/20 09:51:36] root INFO: dt_boxes num : 117, elapse : 1.619128942489624
[2022/08/20 09:51:36] root INFO: rec_res num  : 117, elapse : 0.24797725677490234
[2022/08/20 09:51:36] root INFO: Predict time of ../report_ex/pngs/20220623110401-101.png: 2.001s
[2022/08/20 09:51:36] root INFO: 性别：男, 0.994
[2022/08/20 09:51:36] root INFO: 姓名：张某某, 0.995
[2022/08/20 09:51:36] root INFO: 年龄：40, 0.997
[2022/08/20 09:51:36] root INFO: 尿液其他检查, 0.947
[2022/08/20 09:51:36] root INFO: 检查日期：2022-6-1, 0.997
[2022/08/20 09:51:36] root INFO: 检查医生：徐金凤, 0.981
[2022/08/20 09:51:36] root INFO: 本周氏蛋白定, 0.977
[2022/08/20 09:51:36] root INFO: 阴性, 0.996
[2022/08/20 09:51:36] root INFO: 阴性, 0.992
[2022/08/20 09:51:36] root INFO: 乳魔尿, 0.812
[2022/08/20 09:51:36] root INFO: 阳性, 0.999
[2022/08/20 09:51:36] root INFO: 阴性, 0.995
[2022/08/20 09:51:36] root INFO: U/L, 0.827
[2022/08/20 09:51:36] root INFO: 阴性, 0.995
[2022/08/20 09:51:36] root INFO: 阴性, 0.990
[2022/08/20 09:51:36] root INFO: 58., 0.862
[2022/08/20 09:51:36] root INFO: 3325U/, 0.821
[2022/08/20 09:51:36] root INFO: 绒毛膜促性腺, 0.946
[2022/08/20 09:51:36] root INFO: 尿液淀粉酶测, 0.973
[2022/08/20 09:51:36] root INFO: 阴性, 0.995
[2022/08/20 09:51:36] root INFO: RBC, 0.995
[2022/08/20 09:51:36] root INFO: RBC<3，, 0.874
[2022/08/20 09:51:36] root INFO: 尿含铁血黄素, 0.848
[2022/08/20 09:51:36] root INFO: 阴性, 0.980
[2022/08/20 09:51:36] root INFO: 检查小结, 0.996
[2022/08/20 09:51:36] root INFO: 安全用户电影地方所有你的, 1.000
[2022/08/20 09:51:36] root INFO: 娄便检查, 0.776
[2022/08/20 09:51:36] root INFO: 检查日期：2022-6-1, 0.996
[2022/08/20 09:51:36] root INFO: 检查医生：王超, 0.978
[2022/08/20 09:51:36] root INFO: 粪便常规, 0.830
[2022/08/20 09:51:36] root INFO: RBC, 0.997
[2022/08/20 09:51:36] root INFO: RBC：0, 0.898
[2022/08/20 09:51:36] root INFO: 寄生虫检查, 0.992
[2022/08/20 09:51:36] root INFO: O/H, 0.977
[2022/08/20 09:51:36] root INFO: O/HP, 0.939
[2022/08/20 09:51:36] root INFO: 大便动力, 0.998
[2022/08/20 09:51:36] root INFO: 便潜血检查, 0.971
[2022/08/20 09:51:36] root INFO: 阳性, 0.988
[2022/08/20 09:51:36] root INFO: 阴性, 0.813
[2022/08/20 09:51:36] root INFO: 动力阴性, 0.856
[2022/08/20 09:51:36] root INFO: 阴性, 0.997
[2022/08/20 09:51:36] root INFO: 检查小结, 0.995
[2022/08/20 09:51:36] root INFO: 这个任何不断产品如何今年不是根据, 0.926
[2022/08/20 09:51:36] root INFO: 血液学检测基他, 0.947
[2022/08/20 09:51:36] root INFO: 检查日期：2022-6-1, 0.998
[2022/08/20 09:51:36] root INFO: 检查医生：金桂珍, 0.985
[2022/08/20 09:51:36] root INFO: 项目名称, 0.999
[2022/08/20 09:51:36] root INFO: 检查结果, 0.996
[2022/08/20 09:51:36] root INFO: 参考标识, 0.971
[2022/08/20 09:51:36] root INFO: 单位, 0.999
[2022/08/20 09:51:36] root INFO: 参考范围, 0.996
[2022/08/20 09:51:36] root INFO: 网织红细胞计数, 0.998
[2022/08/20 09:51:36] root INFO: 0.6, 0.956
[2022/08/20 09:51:36] root INFO: （0.5-1.5）0, 0.845
[2022/08/20 09:51:36] root INFO: 12.4, 0.995
[2022/08/20 09:51:36] root INFO: mm/hour, 0.997
[2022/08/20 09:51:36] root INFO: 血沉, 0.980
[2022/08/20 09:51:36] root INFO: 0-15, 0.986
[2022/08/20 09:51:36] root INFO: 阴性, 0.984
[2022/08/20 09:51:36] root INFO: 阴性, 0.991
[2022/08/20 09:51:36] root INFO: 嗜酸球计数, 0.938
[2022/08/20 09:51:36] root INFO: 8, 0.715
[2022/08/20 09:51:36] root INFO: 1.5, 0.980
[2022/08/20 09:51:36] root INFO: （0.5-5）。, 0.841
[2022/08/20 09:51:36] root INFO: 检查小结, 0.994
[2022/08/20 09:51:36] root INFO: 生化室项目一览表, 0.985
[2022/08/20 09:51:36] root INFO: 检查日期：2022-6-1, 0.998
[2022/08/20 09:51:36] root INFO: 检查医生：张海燕, 0.995
[2022/08/20 09:51:36] root INFO: 检查结果, 0.986
[2022/08/20 09:51:36] root INFO: 参考标识, 0.974
[2022/08/20 09:51:36] root INFO: 单位, 0.999
[2022/08/20 09:51:36] root INFO: 项目名称, 0.984
[2022/08/20 09:51:36] root INFO: 参考范围, 0.945
[2022/08/20 09:51:36] root INFO: 131.2, 0.995
[2022/08/20 09:51:36] root INFO: 肌酸激酶, 0.967
[2022/08/20 09:51:36] root INFO: U/L, 0.853
[2022/08/20 09:51:36] root INFO: 15.00~173.00U/l, 0.927
[2022/08/20 09:51:36] root INFO: 5.8, 0.994
[2022/08/20 09:51:36] root INFO: 快速血糖, 0.998
[2022/08/20 09:51:36] root INFO: mmovL, 0.822
[2022/08/20 09:51:36] root INFO: 4.22~6.11mmoVl, 0.920
[2022/08/20 09:51:36] root INFO: 5.3, 0.895
[2022/08/20 09:51:36] root INFO: mmovL, 0.822
[2022/08/20 09:51:36] root INFO: 快速钾, 0.895
[2022/08/20 09:51:36] root INFO: 个, 0.984
[2022/08/20 09:51:36] root INFO: 3.50~5.10 mmov/L, 0.943
[2022/08/20 09:51:36] root INFO: 84.1, 0.993
[2022/08/20 09:51:36] root INFO: umol/L, 0.755
[2022/08/20 09:51:36] root INFO: 44.00~133.00 umol/L, 0.962
[2022/08/20 09:51:36] root INFO: 阳性, 0.998
[2022/08/20 09:51:36] root INFO: 肌红蛋白, 0.965
[2022/08/20 09:51:36] root INFO: 阴性, 0.995
[2022/08/20 09:51:36] root INFO: 30.2, 0.996
[2022/08/20 09:51:36] root INFO: U/L, 0.930
[2022/08/20 09:51:36] root INFO: 0.00~46.00 U/L, 0.907
[2022/08/20 09:51:36] root INFO: 快速谷内转氨酶, 0.951
[2022/08/20 09:51:36] root INFO: 0.00~300 mg/L, 0.964
[2022/08/20 09:51:36] root INFO: 118.0, 0.993
[2022/08/20 09:51:36] root INFO: 脂蛋日（a）, 0.883
[2022/08/20 09:51:36] root INFO: mg/L, 0.848
[2022/08/20 09:51:36] root INFO: 224.7, 0.982
[2022/08/20 09:51:36] root INFO: 20.00~220.00mmoV/L, 0.955
[2022/08/20 09:51:36] root INFO: mmovt, 0.774
[2022/08/20 09:51:36] root INFO: 血淀粉酶, 0.906
[2022/08/20 09:51:36] root INFO: 0.4, 0.977
[2022/08/20 09:51:36] root INFO: mmovL, 0.822
[2022/08/20 09:51:36] root INFO: 0.21~0.78 mmoVL, 0.963
[2022/08/20 09:51:36] root INFO: 极低密度脂蛋白胆固醇, 0.992
[2022/08/20 09:51:36] root INFO: 468.2, 0.998
[2022/08/20 09:51:36] root INFO: pmovL, 0.814
[2022/08/20 09:51:36] root INFO: 339.0~1107.0pmol/L, 0.952
[2022/08/20 09:51:36] root INFO: 血清维生素B12, 0.995
[2022/08/20 09:51:36] root INFO: 检查小结, 0.988
[2022/08/20 09:51:36] root INFO: 电脑他的建设进行客户历史自己, 0.999
[2022/08/20 09:51:36] root INFO: XX医院体检中心体检报告, 0.980

5.项目总结：

通过本次体检报告识别项目，使我对PaddleOCR有了进一步了解，整体项目分为检测+识别部分，最终识别精度可达到90%以上，针对部分文字和符号存在一定错误，后续可以尝试更多模型算法并引入NLP对识别结果进行文字纠错，进一步提升精度，在后续模型推广方面，可以进一步用于移动端或服务器端模型部署，达到真正用于企业需求效果。

参考：https://github.com/PaddlePaddle/PaddleOCR

你可能感兴趣的:(深度学习,CV方向,OCR,深度学习,计算机视觉,目标检测,人工智能)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
cvc降噪和主动降噪_音频知识：CVC降噪和ANC主动降噪的区别和应用汪国 cvc降噪和主动降噪
原标题：音频知识：CVC降噪和ANC主动降噪的区别和应用降噪，对于需要长时间戴耳机的人群来讲，起到了很好的保护作用。然而在购买蓝牙耳机时总会听到商家在宣传耳机所具备的CVC、ANC降噪功能，尽管听过很多商家描述，有些小伙伴依然不是很明白这两者之间的区别以及应用。现在简单和大家介绍这两个看不懂的降噪名词。CVC降噪(ClearVoiceCapture)是通话软件降噪技术。工作原理是是通过耳机内置的消
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
蓝桥杯2023年第十四届省赛真题-岛屿个数撰卢蓝桥杯算法职场和发展
目录题目题目描述输入格式输出格式样例输入样例输出思路：两次DFS（染色法+合并）-Dotcpp编程社区代码：题目题目描述小蓝得到了一副大小为M×N的格子地图，可以将其视作一个只包含字符‘0’（代表海水）和‘1’（代表陆地）的二维数组，地图之外可以视作全部是海水，每个岛屿由在上/下/左/右四个方向上相邻的‘1’相连接而形成。在岛屿A所占据的格子中，如果可以从中选出k个不同的格子，使得他们的坐标能够组
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
计算机科学与技术柳依依@ 学习前端 c4前端后端
计算机科学是一个庞大且关联性强的学科体系，初学者常面临以下痛点：-**知识点零散**：容易陷入"只见树木不见森林"的学习困境-**方向不明确**：面对海量技术栈不知从何入手-**体系缺失**：难以建立完整的知识网络1.计算机基础-计算机组成原理-冯·诺依曼体系-CPU/内存/IO设备-操作系统-进程与线程-内存管理-文件系统-计算机网络-TCP/IP模型-HTTP/HTTPS-网络安全2.编程能力
让电机转起来--基于STM32F1控制两相步进电机转动-新手小白入（完整代码）梦想是成为甜妹儿 stm32 嵌入式硬件单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基础内容1、步进电机2、电机驱动器3、接线方法二、最简单控制电机转动程序1.定时器的输出比较功能生成PWM波2.电机方向控制3.主函数三、进阶版电机控制程序1.加入按键控制2.motor.c中添加一个函数3.主函数总结前言本帖分享步进电机与驱动器的接线方式、速度计算与代码分析。第一次接触电机的小白可能会面对无数的代码分
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
远程登录docker执行shell报错input is not a terminal问题
背景最近要远程去k8sdocker里面获取信息，于是，写了一个如下的命令，执行完之后，报错了。ssh192.168.100.2sudocrictlexec-itxxx.docker/usr/bin/lscpu--online--extended错误信息如下：time=“2025-07-11T21:00:39+08:00”level=fatalmsg=“execingcommandincontain
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
C语言手写简易 DNS 客户端（接收部分）（Charon） c语言开发语言
本文通过纯C语言手动构造DNS请求报文，使用UDP协议发送到公共DNS服务器，并接收响应，完整演示DNS请求流程。主流程：dns_client_commit()这是整个流程的核心函数，下面我们按顺序拆解每一步的逻辑，尤其突出发送sendto与接收recvfrom的设计思路和实现。第一步：创建UDP套接字intsockfd=socket(AF_INET,SOCK_DGRAM,0);if(sockfd
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情