提取游戏文本

1.人工获取

要求:需要能运行游戏,或者有游戏相关的文件

打开文字相关文件

1.有一些游戏可以直接打开txt文件,或者相关的数据包,用二进制文本编辑软件打开。
二进制文本编辑器打开文本
2.借助工具
(1)HAT,ppsspp工具
(2)MisakaHookFinder使用方法:使用hook,无视游戏文本字体,直接读内存拿文本
(3)agthV5.4:自动提取游戏文本,配合CP2TRAN可与翻译软件联合实现自动翻译
(4)office 2003:几乎纯手动

2.图像识别

1.调用API
(1)使用tesseract-ocr和调用百度API实现对图片文字的识别:无图片预处理,直接识别图片中的文字
(2)还是使用tesseract-ocr,用pytesseract实现image-to-string
(3)对剪切板中的图片进行识别,调用百度API:还是需要手动截取对话框还是tesseract-ocr,无预处理,直接识别
(4)使用 tesseract && JTessBoxEditor 执行手写体图片样本训练:使用tesseract,jTessBoxEditor 和 java ,需要Java虚拟机,截取的样本图片中最好不要有10个以上的字符样本。
(5)Python识别图片指定区域文字内容:

  1. 截取原始图上的指定图片当做模板
  2. 根据模板相似度去再原始图片上识别准确坐标
  3. 根据坐标剪切出指定位置图片,也就是所需的内容区域
  4. 对指定位置图片进行ocr识别

(6)利用baidu的api和python的GUI实现通用文字识别功能
(7)tesseract-ocr和百度API
API总结:

  • Pillow ,pytesseract,tesseract-ocr
    优点:本地识别图片
    缺点:占用CPU,准确率低
  • baiduOCR api
    优点:快
    缺点:收费
    百度文字识别费用信息
    提取游戏文本_第1张图片
    提取游戏文本_第2张图片

2.形态学操作法
具体方法见手把手教你深度学习文字识别(文字检测篇:基于MSER, CTPN, SegLink, EAST等方法)
主要思想为:通过利用计算机视觉中的图像形态学操作,包括膨胀、腐蚀基本操作,即可实现简单场景的文字检测,例如检测屏幕截图中的文字区域位置。
提取游戏文本_第3张图片
提取游戏文本_第4张图片
提取游戏文本_第5张图片

你可能感兴趣的:(提取游戏文本)