千云物流-磅单识别

准备样本图片

千云物流-磅单识别_第1张图片

操作过程

手动执行操作过程

//生成tiff文件后生成box文件
tesseract pounds.font.exp0.tif pounds.font.exp0 -l chi_sim --psm 6 batch.nochop makebox
//设置字体
echo test 0 0 0 0 0 >font_properties
//生成训练集合
tesseract pounds.font.exp0.tif pounds.font.exp0 nobatch box.train
//从所有文件中提取字符
unicharset_extractor pounds.font.exp0.box
//生成shape文件
shapeclustering -F font_properties -U unicharset -O pounds.unicharset pounds.font.exp0.tr
//生成特征聚集文件
mftraining -F font_properties -U unicharset -O pounds.unicharset pounds.font.exp0.tr
//生成 normproto 文件
cntraining pounds.font.exp0.tr
//重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。
ren inttemp pounds.inttemp
ren pffmtable pounds.pffmtable
ren shapetable pounds.shapetable
ren normproto pounds.normproto
//合并
combine_tessdata pounds.

基于LSTM识别

#生成box文件
tesseract pounds.font.exp0.tif pounds.font.exp0 batch.nochop makebox

#利用.tif和.box文件生成.lstmf文件用于lstm训练
#  --psm 0 仅限方向和脚本检测(OSD)
#  --psm 1 使用OSD进行自动页面分割
#  --psm 2 自动页面分割但没有osd或ocr
#  --psm 3 全自动页面分割但没有osd
#  --psm 4 假设一列文本大小可变
#  --psm 5 假设一个统一的垂直对齐文本块
#  --psm 6 假设一个统一的文本块
#  --psm 7 将图像视为单个文本行
#   --psm 8 将图像视为单个单词
#   --psm 9 将图像视为圈中的单个单词
#   --psm 10 将图像视为单个字符
#   --psm 11 稀疏文本尽可能多的文本没有特定的顺序
#   --psm 12 带有osd的稀疏文本
#   --psm 13 原始线将图像视为单个文本行
tesseract pounds.font.exp0.tif pounds.font.exp0 --psm 6 lstm.train

#从已有的.traineddata中提取.lstm文件
combine_tessdata -e chi_sim.traineddata chi_sim.lstm

#写入文件pounds.training_files.txt
C:\ocrwork\pounds\pounds.font.exp0.lstmf

# 滚动训练
lstmtraining --model_output="C:\ocrwork\pounds\output\output" --continue_from="C:\ocrwork\pounds\chi_sim.lstm" --train_listfile="C:\ocrwork\pounds\pounds.training_files.txt" --traineddata="C:\ocrwork\pounds\chi_sim.traineddata" --debug_interval -1 --max_iterations 800

#将checkpoint文件和.traineddata文件合并成新的.traineddata文件在工作目录,命令行工具执行:
lstmtraining --stop_training --continue_from="C:\ocrwork\pounds\output\output_checkpoint" --traineddata="C:\ocrwork\pounds\pounds.traineddata" --model_output="C:\ocrwork\pounds\output\output\pounds.traineddata"

# 测试
tesseract 图片.jpg result -l pounds

你可能感兴趣的:(千云物流)