百度云OCR图片文字识别实现

上篇《Java 使用 Tess4J 实现图片识别文字》一文中虽然图片可以识别中文,但是达不到预期的效果,所以今天抽出时间来整理记录一下关于百度云OCR,相对于Tess4J来说,识别度还可以

注册百度AI的账号,具体参照 http://ai.baidu.com/docs#/Begin/top 获取密钥

1、下载java 文字识别SDK https://ai.baidu.com/sdk#ocr

2、获取access_token

package com.scanner.baiduyun.ocr;

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.List;
import java.util.Map;
 
import com.alibaba.fastjson.JSONObject;
 
/**
 * 获取token类
 * @author DevinLau
 */
public class AuthService {
    /**
     * 获取权限token
     * @return 返回示例:
     * {
     * "access_token": "24.c9303e47f0729c40f2bc2be6f8f3d589.2592000.1530936208.282335-1234567",
     * "expires_in":2592000
     * }
     */
    public static String getAuth() {
        // 官网获取的 API Key
        String clientId = "注册的api key";
        // 官网获取的 Secret Key
        String clientSecret = "注册的secret key";
        return getAuth(clientId, clientSecret);
    }
 
    /**
     * 获取API访问token
     * 该token有一定的有效期,需要自行管理,当失效时需重新获取.
     * @param ak - 百度云的 API Key
     * @param sk - 百度云的 Securet Key
     * @return assess_token 示例:
     * "24.c9303e47f0729c40f2bc2be6f8f3d589.2592000.1530936208.282335-1234567"
     */
    public static String getAuth(String ak, String sk) {
        // 获取token地址
        String authHost = "https://aip.baidubce.com/oauth/2.0/token?";
        String getAccessTokenUrl = authHost
                // 1. grant_type为固定参数
                + "grant_type=client_credentials"
                // 2. 官网获取的 API Key
                + "&client_id=" + ak
                // 3. 官网获取的 Secret Key
                + "&client_secret=" + sk;
        try {
            URL realUrl = new URL(getAccessTokenUrl);
            // 打开和URL之间的连接
            HttpURLConnection connection = (HttpURLConnection) realUrl.openConnection();
            connection.setRequestMethod("POST");//百度推荐使用POST请求
            connection.connect();
            // 获取所有响应头字段
            Map> map = connection.getHeaderFields();
            // 定义 BufferedReader输入流来读取URL的响应
            BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
            String result = "";
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
            JSONObject jsonObject = JSONObject.parseObject(result.toString());
            String access_token = jsonObject.getString("access_token");
            return access_token;
        } catch (Exception e) {
            e.printStackTrace(System.err);
        }
         return null;
    }
 
}

3、通用识别代码

package com.scanner.baiduyun.ocr;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.lang.reflect.Field;
import java.lang.reflect.Method;
import java.net.URLEncoder;
import java.util.HashMap;
import java.util.Map;
import com.baidu.aip.util.Base64Util;
import com.scanner.entity.PRD;
import com.scanner.utils.SimilarityRatio;
 
/**
 * @author DevinLau
 *
 */
public class General {
    /**
     * 识别图片文字返回与实体最匹配的标题
     * @param filePath 图片路径
     * @return
     */
    public  String  IdentifyImg(String filePath){
        // 通用识别url
        String otherHost = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic";
        try {
        	InputStream in;
            byte[] data = null;
            // 读取图片字节数组
            try {
                in = new FileInputStream(filePath);
                data = new byte[in.available()];
                in.read(data);
                in.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
            String imgStr = Base64Util.encode(data);
            String params = URLEncoder.encode("image", "UTF-8") + "=" + URLEncoder.encode(imgStr, "UTF-8");
            
            //线上环境access_token有过期时间, 客户端可自行缓存,过期后重新获取。
            String accessToken = AuthService.getAuth();//#####调用鉴权接口获取的token#####
            //开始搭建post请求
            return  HttpUtil.post(otherHost, accessToken, params);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return null;
    }
    
}

代码中使用的工具类下载  FileUtil ,Base64Util ,HttpUtil

以上就是本文的全部内容,希望对大家的学习有所帮助,欢迎评论交流。能get到知识点不要忘了关注点个赞~ 拒绝白嫖从我们做起hh~ 

你可能感兴趣的:(【图像识别OCR】)