PP-OCR(动手学OCR笔记第一部分)

PP-OCRv3笔记

一、背景

  1. 近年来,随着技术的发展,文字识别(OCR)已经被广泛的运用至各个场景之中,尤其是采用深度学习技术的OCR文字检测和识别技术将更是得到了广泛应用,包括已经在日常生活中广泛应用的面向垂类的结构化文本识别,如车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等等,此外,通用OCR技术也有广泛的应用,如在视频场景中,经常使用OCR技术进行字幕自动翻译、内容安全监控等等,或者与视觉特征相结合,完成视频理解、视频搜索等任务。
  2. 面临的问题:在实际应用中,尤其是在广泛的通用场景下,OCR问题还需要面临一些挑战,比如透视变换、文字弯曲、背景干扰、多种语言、字体多变、仿射变换、尺度问题、光照不足、拍摄模糊等技术难点;另外OCR应用常对接海量数据,但要求数据能够得到实时处理,因此对OCR模型的复杂程度和预测速度有很高的要求。
  3. OCR包括 :1. 对图像进行 文字检测 2. 对检测框进行 文字识别 **3.**对识别出的文字进行 文档分析

二、OCR技术

2.1文本检测

文本检测的任务是定位出输入图像中的文字区域。目前较为流行的文本算法大概分为两种:一种是基于回归的思想,另外一种是基于分割的思想
基于回归的算法类似Yolov5,通过设定anchor回归检测框,或者直接做像素回归,这类方法适用于规则形状文本,比如CTPN对水平文本的检测效果较好,但对倾斜、弯曲文本的检测效果较差,SegLink对长文本比较好,但对分布稀疏的文本效果较差;基于分割的算法引入了Mask-RCNN,这类算法在各种场景、对各种形状文本的检测精度都很高,但速度很慢,(牺牲速度换取精度,适合有大算力并且要求极其严格)并且无法解重叠文本的检测问题。

2.2文字识别

文本识别的任务是识别出图像中的文字内容,一般输入来自于文本检测得到的文本框。文本识别一般可以分为规则文本识别和不规则文本识别两大类。规则文本主要指印刷字体、扫描文本等,文本大致处在水平线位置;不规则文本往往不在水平位置,存在弯曲、遮挡、模糊等问题。不规则文本场景具有很大的挑战性,也是目前文本识别领域的主要研究方向。

2.2结构化识别

在实际应用场景中,要获取的是结构化的信息,如身份证、发票的信息格式化抽取,表格的结构化识别等等,多在快递单据抽取、合同内容比对、金融保理单信息比对、物流业单据识别等场景下应用。

2.2.1版面分析

版面分析(Layout Analysis)主要是对文档图像进行内容分类,类别一般可分为纯文本、标题、表格、图片等。现有方法一般将文档中不同的板式当做不同的目标进行检测或分割。

2.2.2表格分析

将文档里的表格信息进行识别和转换到excel文件中。文本图像中表格种类和样式复杂多样,例如不同的行列合并,不同的内容文本类型等,除此之外文档的样式和拍摄时的光照环境等都为表格识别带来了极大的挑战。这些挑战使得表格识别一直是文档理解领域的研究难点。

2.2.3关键信息提取

主要从图像中提取所需要的关键信息,如从身份证中提取出姓名和身份号码信息,这类信息的种类往往在特定任务下是固定的,但是在不同任务间是不同的。

参考:动手学OCR

你可能感兴趣的:(OCR,计算机视觉,人工智能,深度学习)