一种表格图片识别的思路(OCR)

    去年刚毕业工作不久接到一个工作任务是做表格图片的OCR,当时公司已经用上了业界很成熟的解决法案,用的是泰比,由于上个之前同事做时候没有把交互做好,用户体验不好,后来把交互修改后,体验好了不少,但对比一些专门做OCR的微信小程序比速度慢不少。
    我们的目标是既块又准,由于公司规模小,各方面资源有限,我当时还是从各大通用OCR(谷歌,百度,腾讯,阿里,汉王等等)开始尝试,开源的tesseract识别效果和速度都有点差强人意,国内几家尝试下来百度是效果最好(百度AI就是牛逼啊),但是百度的表格识别效果是不如泰比的,而且费用很贵,一次调用就要三毛钱,不可接受。无意尝试了一下百度的通用OCR,意外发现精确识别的效果惊人,而且带所有字符的位置信息,突然一个想法蹦了出来,把表格图片框线识别出来,再根据字符位置关系,把识别结果组成一个表格不就行了。马上行动起来,由于之前做的复杂网络和图像没有半毛钱关系,恶补了几天的图像处理,做出来之后速度提升了好几倍,感觉还是挺爽的,当然还是存在一些问题的,比如对一个表格单元内有多行文字图片不友好。目前正在最第二版,希望可以识别效果更上一层楼。

你可能感兴趣的:(爱好)