使用百度AI进行手写文字识别

一、需求描述:

信息智能化时代,大部分中小企业都用上了ERP等办公软件,数字化纸质内容,软件化管理数据,做到无纸化办公。但仔细观察,中小企业还是有一些工作流程可以进行改进的。

例如,公司进行人员应聘时,都是先打印应聘表格,然后让应聘人员填写内容,最后由文员将应聘表格的内容输入到ERP系统内。其中,文员将应聘内容输入到ERP系统内,这个步骤是相当耗时费力的,如果当天应聘人员比较多,那将花费文员大量的时间去输入应聘信息。

如果能够利用百度的手写文字识别功能,结合【IOCR自定义模板文字识别】,智能识别应聘表格内容,并将识别结果填入对应的软件、或是生成相应的EXCEL等电子文档,那么文员只需要校对一下识别的内容是否正确,就能一键保存/导入,很快的做好应聘信息录入工作,大量减轻文员的录入工作。

以此类推,像请假条、办公采购单,员工日工资明细等一些表格都可以通过百度手写文字识别的方法来进行智能识别,极大降低文员的工作量,提高文员的工作效率。


二、应用价值:

利用百度【手写文字识别】功能,结合【IOCR自定义模板文字识别】,AI前后文判断智能纠错等功能,可大大降低文员文字录入工作量,提高文员工作效率,适合大部分中小企业。

如果能将【手写文字识别】功能离线化,或者可以单独部署到企业自己的服务器上去,那将具有更大的应用前景。


三、使用攻略

说明:本文采用C# 语言,开发环境为.Net Core 2.1。

1、平台接入

具体接入方式比较简单,可以参考度友爱小妞宝的帖子,可参考到【创建应用程序】这一步骤(主要获取APPID等信息,调用时会用的),后面的使用由于我是采用.Net Core 平台的C#、SDK方案,故有些不同,有时间的话,我会另写一个教程出来:https://ai.baidu.com/forum/topic/show/867951(感谢度友爱小妞宝)

2、接口调用说明

文字识别接入官方说明文档(C#,SDK方案):https://ai.baidu.com/docs#/OCR-Csharp-SDK/top

(1)接口描述

对手写中文汉字、数字进行识别。


(2)安装文字识别 C# SDK

方法一:使用Nuget管理依赖 (推荐)

在NuGet中搜索 Baidu.AI,安装最新版即可。

packet地址https://www.nuget.org/packages/Baidu.AI/


方法二:下载安装

文字识别 C# SDK目录结构

Baidu.Aip

├── net35

│   ├── AipSdk.dll // 百度AI服务 windows 动态库

│   ├── AipSdk.xml // 注释文件

│   └── Newtonsoft.Json.dll // 第三方依赖

├── net40

├── net45

└── netstandard2.0

├── AipSdk.deps.json

└── AipSdk.dll

1.在官方网站下载C# SDK压缩工具包:http://ai.baidu.com/sdk#ocr

2.解压后,将 AipSdk.dll 和 Newtonsoft.Json.dll 中添加为引用。


(3)新建交互类

// 设置APPID/AK/SK

var APP_ID = "你的 App ID";

var API_KEY = "你的 Api Key";

var SECRET_KEY = "你的 Secret Key";

var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);

client.Timeout = 60000;  // 修改超时时间

(4)调用代码

public void HandwritingDemo() {

var image = File.ReadAllBytes("图片文件路径");

// 调用手写文字识别,可能会抛出网络等异常,请使用try/catch捕获

var result = client.Handwriting(image);

Console.WriteLine(result);

// 如果有可选参数

var options = new Dictionary{

{"recognize_granularity", "big"}

};

// 带参数调用手写文字识别

result = client.Handwriting(image, options);

Console.WriteLine(result);

}

(5)返回示例

{

"log_id": 620759800,

"words_result": [

{

"location": {

"left": 56,

"top": 0,

"width": 21,

"height": 210

},

"words": "3"

}

],

"words_result_num": 1

}

四、示例关键代码

1、前台.cshtml 页面布局关键代码

由于html代码无法原生显示,只能简单说明一下:

主要是一个form表单,需要设置属性enctype="multipart/form-data",否则无法上传图片;

form表单里面有两个控件:

一个Input,type="file",上传图片用;

一个Input,type="submit",提交并返回识别结果。

2、后台.cshtml.cs调用关键代码

[BindProperty]

[Required]

public IFormFile FileUpload { get; set; }

private readonly IHostingEnvironment HostingEnvironment;

public List msg = new List();

public string curPath { get; set; }

public async Task OnPostHandwritingAsync()

{

msg = new List();

// Perform an initial check to catch FileUpload class attribute violations.

if (!ModelState.IsValid)

{

return Page();

}

string webRootPath = HostingEnvironment.WebRootPath;//wwwroot目录

var fileDir = Path.Combine(webRootPath, "服务器图片保存相对位置,如://BaiduPicture//");

if (!Directory.Exists(fileDir))

{

Directory.CreateDirectory(fileDir);

}

string extension = Path.GetExtension(FileUpload.FileName);

string imgName = Guid.NewGuid().ToString("N") + extension;

var filePath = Path.Combine(webRootPath, "服务器图片保存相对位置,如://BaiduPicture//", imgName);

curPath = Path.Combine("服务器图片相对位置(需要在 Startup.cs 文件中的 Configure()中先进行设置,开启虚拟目录映射功能),如:/BaiduPicture/", imgName);

using (var fileStream = new FileStream(filePath, FileMode.Create, FileAccess.Write))

{

await FileUpload.CopyToAsync(fileStream);

}

// 设置APPID/AK/SK

var client = new Baidu.Aip.Ocr.Ocr("你的 Api Key", "你的 SECRET Key");

var image = System.IO.File.ReadAllBytes(filePath);

// 调用手写文字识别, 图片参数为本地图片,可能会抛出网络等异常,请使用try/catch捕获

var result = client.Handwriting(image);//手写文字识别

List msgList = result["words_result"].ToList();

msg.Add("手写文字识别结果:");

foreach (JToken ms in msgList)

{

msg.Add(ms["words"].ToString());

}

return Page();

}

五、效果测试

1、页面:

2、识别结果:

(1)

(2)

说明:因为攻略主要介绍如何使用手写文字识别功能,所以对文字处理这块不进行深入操作。如果想进一步提高识别结果,可以采取将识别结果输出为字符串,然后使用正则表达式提取相应的文字内容,或者进一步导出为EXCEL文件等。

六、改进建议

1、存在的问题:

(1)部分内容,正常情况下,应该将其识别为两条记录的,结果最后变成了一条记录,特别是【文字-数字-文字-数字】这样的行信息组合的时候,如果文字、数字的距离较近,很容易将数字和文字识别在一起了,需要改进。

(2)再如像“娘”这样偏旁部首是单独的字组成的字时,会识识别成“女良”两个字,这点也需要改进。(感谢度友134******14的提醒)

(3)目前对稍微潦草的字迹识别率还不是很高,需要改进。

由于计算机、手机等电子设备的普及,大部分人都习惯了打字,手写情况大大减少,由此导致很大一部分人写的字龙飞凤舞,比较难以识别(我写的字就很潦草,有时候连自己都无法认出来。。。),而且目前来说,中小企业应聘人员的综合教育水平普遍较低(普工招的比较多),有的甚至不会写字,所以导致手写文字各种各样。经过测试,百度手写文字识别能力虽然比较优秀了,但是离真正应用到实际工作中去还是有一定的距离的。

2、改进建议

(1)结合【IOCR自定义模板文字识别】功能,智能识别模板内容,格式化提取内容,方便开发人员调用(目前好像已支持手写数字识别,希望能更快增加支持手写文字识别)。

(2)如果能格式化输出内容,或一键导出EXCEL电子文档等功能,则更加方便跟EPR等软件的对接。

(3)可以运用AI技术,结合前后文智能识别错别字,修正错误或语句问题,提高识别结果。

(4)若能将【手写文字识别】功能离线话,或可以部署到企业自己的服务器上去,会有更多的企业愿意尝试,也能将【手写文字识别】功能运用到【财务报表】等保密性要求较强的方向中去。

你可能感兴趣的:(使用百度AI进行手写文字识别)