tesseract 中文识别 笔记

游戏要出海外版本,图片里的中文字不想手动筛选,就想着弄一个中文识别
结论:大部分能识别出中文,但是游戏字体千变万化,识别结果不准确,比如按钮两个框可能识别成了吕,识别结果也是乱码
本来想着训练下样本让它准确一点,也没成功,最好还是拉出两个svn version的文件,让策划手工删选了

https://www.cnblogs.com/ITtangtang/p/3951240.html       ---- Imagemagick常用指令

1. 官方推荐的DPI是300以上,一般图片都是72
修改DPI,并且转换程tif格式图片,写入灰度,关掉透明度等操作
d:\ImageMagick\convert.exe -density 300 -compress none -depth 8 -alpha off -colorspace Gray ./code.gif ./code.tif
查询图片信息
magick identify -format %w%h .png  
图片切片
magick convert .png -crop 154x50 +repage .png

基本用法:
tesseract img img -l chi_sim
参考:
http://blog.csdn.net/firehood_/article/details/8433077         ---- Tesseract-OCR 字符识别---样本训练
https://www.jianshu.com/p/5f847d8089ce                    ---- 使用Tesseract训练lang文件并OCR识别集装箱号
训练流程:
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox
tesseract  mjorcen.normal.exp0.jpg mjorcen.normal.exp0  nobatch box.train
unicharset_extractor mjorcen.normal.exp0.box
====  training/set_unicharset_properties -U input_unicharset -O output_unicharset --script_dir=training/langdata
shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr
mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr
cntraining mjorcen.normal.exp0.tr
combine_tessdata normal.
可惜训练之后的样本还是不能达到理想效果

听说 ABBYY FineReader的ocr识别率很准。。。
看到瓣读软件的ocr识别书本文字做比较的功能,测试身份证结果,确实比tesseract智能很多,很多不相关内容不会列出,查询得知调用的baidu ocr接口,嗯。。。付费和内网做不到
还有其他的平台http://chongdata.com/ocr/ 这个有py脚本调用,不过也是访问他的接口,内网做不到。。。
遂放弃。。。感觉游戏里的东西通用化来做,成本确实相对比较高一些。。。尽力而为了
上传了一些测试文件,可以去我download里找一下

你可能感兴趣的:(H5)