文末送书 | 阿里资深员工撰写:深度实践OCR

一直以来没有一本特别好的,针对 OCR 方向的既前沿又兼具实践应用的书籍。

今天,为大家推荐一本上个月刚刚出版的新书《深度实践 OCR ——基于深度学习的文字识别》。

阿里巴巴本地生活研究院算法团队技术专家领衔,海康威视、趣头条等企业的算法专家以及知名场景文本算法作者共同撰写;

知名 OCR 算法 FCOS、CTPN 作者田植为其作序。

得到了阿里巴巴本地生活、达摩院、旷视科技、字节跳动、狗尾草等知名AI企业或机构的知名AI技术专家的联袂推荐;

行业应用和学术理论相结合,既有来自于阿里巴巴本地生活实际应用场景的一线实践经验和方法,又有来自学术前沿的新理论;是业应用和学术前沿的一次思想碰撞!

从组件、算法、实现、工程应用等维度系统讲解基于深度学习的 OCR 技术的原理和落地,提供大量简洁的代码实现,帮助读者从零基础开始构建 OCR 算法。

适读人群

1.人工智能领域的技术工程师,尤其是从事图像识别和 NLP 的技术工程师; 

2.专门研究 OCR 的专业人士或院校师生等。

文末送书 | 阿里资深员工撰写:深度实践OCR_第1张图片

下面先一睹为快!

目录

推荐序

前言

第1章 绪论 1

1.1 人工智能大潮中的OCR发展史 1

1.1.1 传统OCR方法一般流程 3

1.1.2 基于深度学习OCR方法一般流程 5

1.2 文字检测 6

1.3 文字识别 8

1.4 产业应用现状 10

1.5 本章小结 11

1.6 参考文献 11

第2章 图像预处理 13

2.1 二值章化 13

2.1.1 全局阈值方法 13

2.1.2 局部阈值方法 17

2.1.3 基于深度学习的方法 20

2.1.4 其他方法 22

2.2 平滑去噪 26

2.2.1 空间滤波 26

2.2.2 小波阈值去噪 28

2.2.3 非局部方法 29

2.2.4 基于神经网络的方法 33

2.3 倾斜角检测和校正 35

2.3.1 霍夫变换 36

2.3.2 Radon 变换 38

2.3.3 基于 PCA 的方法 38

2.4 实战 39

2.5 参考文献 43

第3章 传统机器学习方法绪论 45

3.1 特征提取方法 45

3.1.1 基于结构形态的特征提取 45

3.1.2 基于几何分布的特征提取 61

3.2 分类方法模型 63

3.2.1 支持向量机 63

3.2.2 K近邻算法 65

3.2.3 多层感知器 70

3.3 实战:身份证号码的识别 71

3.3.1 核心代码 71

3.3.2 测试结果 78

3.4 本章小结 79

3.5 参考文献 79

第4章 深度学习基础知识 80

4.1 单层神经网络 80

4.1.1 神经元 80

4.1.2 感知机 81

4.2 双层神经网络 82

4.2.1 双层神经网络简介 82

4.2.2 常用的激活函数 83

4.2.3 反向传播算法 86

4.3 深度学习 87

4.3.1 卷积神经网络 88

4.3.2 常用优化算法 90

4.4 训练网络技巧 92

4.4.1 权值初始化 92

4.4.2 L1/L2正则化 93

4.4.3 Dropout 94

4.5 实战 95

4.6 参考文献 97

第5章 数据生成 99

5.1 背景介绍 99

5.2 传统单字OCR数据生成 100

5.3 基于深度学习的OCR数据生成 101

5.3.1 文字检测数据的生成 101

5.3.2 检测图片生成 103

5.3.3 其他方法 112

5.3.4 识别数据生成 113

5.4 通过GAN的技术生成数据 114

5.4.1 GAN背景介绍 114

5.4.2 GAN的原理 116

5.4.3 GAN的变种 117

5.5 图像增广 123

5.5.1 常用的图像增强方法 123

5.5.2 深度学习方法 126

5.6 常用的开源数据集 128

5.7 ICDAR的任务和数据集 131

5.8 本章小结 138

5.9 参考文献 138

第6章 深度学习高级方法 140

6.1 图像分类模型 140

6.1.1 LeNet5 140

6.1.2 AlexNet 142

6.1.3 VGGNet 143

6.1.4 GoogLeNet 144

6.1.5 ResNet 147

6.1.6 DenseNet 151

6.1.7 SENet 153

6.1.8 轻量化网络 154

6.2 循环神经网络 154

6.2.1 RNN网络 154

6.2.2 GRU 156

6.2.3 GRU的实现 158

6.2.4 LSTM网络 160

6.3 Seq2Seq 163

6.4 CTC Loss 164

6.4.1 算法详解 166

6.4.2 前向传播 168

6.4.3 后向传播 173

6.4.4 前向/后向算法 173

6.4.5 CTC算法特性 174

6.4.6 代码解析 175

6.5 Attention 178

6.6 本章小结 181

6.7 参考文献 182

第7章 文字检测 183

7.1 研究意义 183

7.2 目标检测方法 185

7.2.1 目标检测相关术语 186

7.2.2 传统检测方法 189

7.2.3 Two-stage 方法 195

7.2.4 One-stage 方法 210

7.3 文本检测方法 217

7.3.1 传统文本检测方法 217

7.3.2 基于深度学习的文本检测方法 222

7.4 本章小结 228

7.5 参考文献 228

第8章 字符识别 232

8.1 任务概览 232

8.2 数据集说明 233

8.2.1 数据集意义 233

8.2.2 常见识别数据集介绍 234

8.3 评测指标 238

8.3.1 编辑距离 239

8.3.2 归一化编辑距离 239

8.3.3 字符准确度 239

8.3.4 词准确率 239

8.3.5 语境相关的评测方式 239

8.4 主流算法介绍 240

8.4.1 传统光学方法 240

8.4.2 完全基于深度学习的方法 244

8.5 CRNN模型实战 274


全书按照 OCR 的步骤组织为:

第一章 从宏观角度介绍了 OCR 技术的发展历程、概念和产业应用;

第二章 讲解了 OCR 的图像预处理方法;

第三~四章 介绍了传统机器学习方法和深度学习的相关基础知识

第五章 讲解了基于传统方法和深度学习方法的 OCR 数据生成

第六章 讲解了与 OCR 相关的一些高级深度学习方法,方便读者理解后续的检测和识别部分;

第七章 讲解了文字的检测技术,从通用的目标检测到文字检测,一步步加深读者对文字检测的认识;

第八章 讨论了文字识别的相关技术,定位到文字的位置之后,需要对文字的内容进行进一步的解析

第九章 介绍了一些 OCR 后处理的方法;

第十章 介绍了一些板面分析方法。

OCR相关代码(即将):

https://github.com/ocrbook/ocrinaction

福利时间:

本次我爱计算机视觉联合【机械工业出版社华章公司】为大家带来 8 本正版新书。在本文末评论区中谈谈你对 OCR 的学习经验及认识,6 月 11 日下午 17点前,评论点赞前 8 名的读者将获赠正版图书 1 本。

注意:为防止羊毛党,保障正常粉丝权益,本活动仅限 2020 年 6 月 8 日之前关注我爱计算机视觉公众号的粉丝参与。

当当网已开售,大家也可以在以下链接购买:

备注:OCR

OCR交流群

文本检测、识别、编辑、等最新资讯,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:[email protected]

网站:www.52cv.net

在看,让更多人看到  

你可能感兴趣的:(文末送书 | 阿里资深员工撰写:深度实践OCR)