TesseractOCR

TesseractOCR

最近研究并学习了一下 TesseractOCR ,它是一款由HP实验室开发由 Google 维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎。

iOS 上初步的使用 TesseractOCR 进行图像文字提取。

1、在 github 下载图像识别demo源码:Tesseract OCR ----https://github.com/gali8/Tesseract-OCR-iOS,默认英文识别。

2、中文识别:增加并替换文字库,字库链接 https://github.com/tesseract-ocr/tessdata

增加:在 tessdata 文件夹中,你会看到只有一个 eng.traineddata 的英文文字库,这个时候你需要去下载中文文字库: chi_sim.traineddata ,并将其拷贝到 tessdata 文件夹中。
替换:修改代码,@"eng" -- @"chi_sim"

//    G8RecognitionOperation *operation = [[G8RecognitionOperation alloc] initWithLanguage:@"eng"];
    G8RecognitionOperation *operation = [[G8RecognitionOperation alloc] initWithLanguage:@"chi_sim"];

问题来了:这个时候会发生两种问题:

第一: actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 53 这是字库版本不对的问题,需要在字库链接中选中分支 (Branch),选择不同的版本 (tag)。本人使用 3.04.00 。这样就不会报错了。

第二:字库正常的情况下,点击识别的时候立刻退出的情况。会出现 allow_blob_division 这个问题。
对于 Windows用户来说,可以参考这篇文章:http://www.cocoachina.com/bbs/read.php?tid-1680510.html。大概思路是重新联立这个中文字库。

对于 Mac 用户来说,很抱歉,我暂时也没找到解决办法,有一个想法是通过 Windows 的计算机把这个字库文件暂时修改后,转移到 tessdata 文件夹来进行操作。 PS :未经尝试。

优化识别功能。

因为 TessractOCR 进行图片文字提取耗时比较久,于是,结合 OpenCV 框架首先进行图像处理,然后再让 TessractOCR 识别,来达到时间的优化的目的。

例子:身份证识别。

一、第三方框架准备,使用 Cocoapods :
OpenCV 指定版本 3.0.0 不会拉取不成功,其他版本会失败。 TesseractOCRiOS 是一个大神专门为了 iOS 系统对 TessractOCR 的 OC 封装。

platform :ios, ‘8.0’

target '身份证识别' do
 pod 'OpenCV', '~> 3.0.0'
 pod 'TesseractOCRiOS', '~> 4.0.0'
end

二、图像处理技术:
1、灰度化处理:将指定图片每个像素点的 RGB 三个分量通过算法计算出该像素点的灰度值,将图像的色彩信息进行移除。

cvtColor(resultImage, resultImage, cv::COLOR_BGR2GRAY);

2、二值化:将经过灰度处理的图片转换为只包含黑白二色的图像。图像中只存在 255(白色) 或者 0(黑色)。
二值化参考网址:https://blog.csdn.net/u013270326/article/details/72897507
https://www.jianshu.com/p/6efd324e8677

cv::threshold(resultImage, resultImage, 80, 255, CV_THRESH_BINARY);

3、腐蚀:将二值图中的黑色进行放大。将图片中黑色文字或者头像区域连城一体,形成一个黑色区域(文字形成的区域一般是矩形)。

    cv::Mat erodeElement = getStructuringElement(cv::MORPH_RECT, cv::Size(26,26));
    cv::erode(resultImage, resultImage, erodeElement);

4、轮廓检测:图片经过腐蚀之后形成一个一个的矩形区域,通过轮廓检测,能把一个一个的矩形塞到一个类似于数组这样的集合中。我们就可以通过特征算法获取到身份证的区域。并把这个区域的图片单独提取出来,进行 TesseractOCR 图像信息提取。

  // 轮廓检测
    std::vector> contours; // 定义一个容器来存储所有检测到的轮廓
    cv::findContours(resultImage, contours, CV_RETR_TREE, CV_CHAIN_APPROX_SIMPLE, cvPoint(0, 0));
    
    // 取出身份证号码区域
    std::vector rects;
    cv::Rect numberRect = cv::Rect(0,0,0,0);
    std::vector>::const_iterator itContours = contours.begin();

    for ( ; itContours != contours.end(); ++itContours) {
        cv::Rect rect = cv::boundingRect(*itContours);
        rects.push_back(rect);
        //算法原理
        if (rect.width > numberRect.width && rect.width > rect.height * 5) {
            numberRect = rect;
        }
    }

三、文字识别技术。直接使用封装好的 TessractOCRiOS 方法进行图片识别。

dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
        G8Tesseract *tesseract = [[G8Tesseract alloc] initWithLanguage:@"eng"];
        tesseract.image = [image g8_blackAndWhite];
        tesseract.image = image;
        // Start the recognition
        [tesseract recognize];
        //执行回调
        dispatch_async(dispatch_get_main_queue(), ^{
            completeBlock(image, tesseract.recognizedText);
        });
    });

具体代码如下:

一、 viewController 调用代码:

//适用获取所有媒体资源,只需判断资源类型
- (void)imagePickerController:(UIImagePickerController *)picker didFinishPickingMediaWithInfo:(NSDictionary *)info{
    NSString *mediaType=[info objectForKey:UIImagePickerControllerMediaType];
    UIImage *srcImage = nil;
    //判断资源类型
    if ([mediaType isEqualToString:@"public.image"]){
        srcImage = info[UIImagePickerControllerEditedImage];
        self.imageView.image = srcImage;
        //识别身份证
        self.textLabel.text = @"图片插入成功,正在识别中...";
        [[RecognizeCardManager shareManager] recognizeCardWithImage:srcImage complete:^(UIImage *cropImage, NSString *text) {
            if (text != nil) {
                self.textLabel.text = [NSString stringWithFormat:@"识别结果:%@",text];
                NSLog(@"%@", self.textLabel.text);
                CGFloat width = cropImage.size.width;
                CGFloat height = cropImage.size.height;
                if (cropImage.size.width > self.view.bounds.size.width) {
                    width = self.imageView.frame.size.width;
                }
                
                if (cropImage.size.height > self.imageView.frame.size.height) {
                    height = self.imageView.frame.size.height;
                }
                UIImageView *imageView = [[UIImageView alloc] initWithFrame:CGRectMake(0, CGRectGetMinY(self.imageView.frame), width, cropImage.size.height)];
                imageView.contentMode = UIViewContentModeScaleAspectFit;
                imageView.image = cropImage;
                UIWindow *window = [[UIApplication sharedApplication] keyWindow];
                [window addSubview:imageView];
            }else {
                self.textLabel.text = @"识别失败";
            }
        }];
    }
    [self dismissViewControllerAnimated:YES completion:nil];
}

二、 recognizeCardManager 代码:
.h

#import 

@class UIImage;

typedef void (^CompleteBlock) (UIImage *cropImage, NSString *text);

@interface RecognizeCardManager : NSObject

+ (instancetype)shareManager;

- (void)recognizeCardWithImage:(UIImage *)cardImage complete:(CompleteBlock)completeBlock;

- (void)tesseractRecogniceWithImage:(UIImage *)inputImage complete:(CompleteBlock)complete;

@end

.m

#import "RecognizeCardManager.h"
#import 
#import 
#import 
#import 


@implementation RecognizeCardManager

+ (instancetype)shareManager
{
    static RecognizeCardManager *manager = nil;
    static dispatch_once_t onceToken;
    
    dispatch_once(&onceToken, ^{
        manager = [[RecognizeCardManager alloc] init];
    });
    return manager;
}

- (void)recognizeCardWithImage:(UIImage *)cardImage complete:(CompleteBlock)completeBlock
{
    // 扫描身份证图片,并进行预处理,定位号码区域图片并返回
    UIImage *numberImage = [self opencvScanCard:cardImage];
//    UIImage *numberImage = cardImage;
    if (numberImage == nil) {
        completeBlock(numberImage, nil);
    }
    
    // TesseractORC识别文字
    [self tesseractRecognizeImage:numberImage complete:^(UIImage *cropImage, NSString *numberText) {
        completeBlock(numberImage, numberText);
    }];
}

- (UIImage *)opencvScanCard:(UIImage *)image
{
    // 将UIImage 转换成mat
    cv::Mat resultImage;
    UIImageToMat(image, resultImage);
    
    // 转为灰度
    cvtColor(resultImage, resultImage, cv::COLOR_BGR2GRAY);

    // 利用阀值二值化
    cv::threshold(resultImage, resultImage, 80, 255, CV_THRESH_BINARY);
    
    // 腐蚀,填充(腐蚀背景)
    cv::Mat erodeElement = getStructuringElement(cv::MORPH_RECT, cv::Size(26,26));
    cv::erode(resultImage, resultImage, erodeElement);
    
    // 轮廓检测
    std::vector> contours; // 定义一个容器来存储所有检测到的轮廓
    cv::findContours(resultImage, contours, CV_RETR_TREE, CV_CHAIN_APPROX_SIMPLE, cvPoint(0, 0));
    
    // 取出身份证号码区域
    std::vector rects;
    cv::Rect numberRect = cv::Rect(0,0,0,0);
    std::vector>::const_iterator itContours = contours.begin();

    for ( ; itContours != contours.end(); ++itContours) {
        cv::Rect rect = cv::boundingRect(*itContours);
        rects.push_back(rect);
        //算法原理
        if (rect.width > numberRect.width && rect.width > rect.height * 5) {
            numberRect = rect;
        }
    }
    
    //身份证号码定位失败
    if (numberRect.width == 0 || numberRect.height == 0) {
        return nil;
    }
    //定位成功成功,去原图截取身份证号码区域,并转换成灰度图、进行二值化处理
    cv::Mat matImage;
    UIImageToMat(image, matImage);
    resultImage = matImage(numberRect);
//    resultImage = matImage;
    cvtColor(resultImage, resultImage, cv::COLOR_BGR2GRAY);
    cv::threshold(resultImage, resultImage, 80, 255, CV_THRESH_BINARY);
    //将Mat转换成UIImage
    UIImage *numberImage = MatToUIImage(resultImage);
    return numberImage;
}

//利用TesseractOCR识别文字
- (void)tesseractRecognizeImage:(UIImage *)image complete:(CompleteBlock)completeBlock {
    
    dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
        G8Tesseract *tesseract = [[G8Tesseract alloc] initWithLanguage:@"eng"];
        tesseract.image = [image g8_blackAndWhite];
        tesseract.image = image;
        // Start the recognition
        [tesseract recognize];
        //执行回调
        dispatch_async(dispatch_get_main_queue(), ^{
            completeBlock(image, tesseract.recognizedText);
        });
    });
}

- (void)tesseractRecogniceWithImage:(UIImage *)inputImage complete:(CompleteBlock)complete
{
    [self tesseractRecogniceWithImage:inputImage complete:complete];
}

@end

你可能感兴趣的:(TesseractOCR)