liuzard

一篇入门深度学习OCR：数据集和算法合集

1、OCR数据集和数据集生成工具

2. 深度学习OCR算法

3. 深度学习相关博客

4.相关图书

5.识别加速

当前OCR领域基本上已经是深度学习的天下了，近5年，在算法和数据集的双重加持下，OCR已经成为一个解决的问题，要做一个适合于自己的OCR系统，关键在于选择适合于自己场景的数据集和算法。

本文主要记录OCR领域常用的数据集和算法，以及相关的开源项目和博客。

1、OCR数据集和数据集生成工具

在任何领域，深度学习成为主流意味着数据集是其中的关键，即使是相同的OCR模型，大规模数据集的训练能带来识别效果上质的提升。

深度学习OCR处理主要分成两步走：

（1）图片中的文本检测，即通过文本框框出图片中的文本。

（2）识别出文本框中的文本。

对应的，公开的数据集也分成这两类。

1.1 文本检测数据集

a. SynthText (ST)

文本检测数据集使用最为广泛的是SynthText (ST)，可以说是OCR领域的 ImageNet，该数据集由牛津大学工程科学系视觉几何组的 Gupta, A. and Vedaldi, A. and Zisserman, A. 于 2016 年在 IEEE 计算机视觉和模式识别会议 (CVPR) 上发布。

数据集采用合成的方式生成，在80万张图片中人工加入了800万个文本，而且这种合成并不是很生硬的叠加，而是作了一些处理，使文字在图片中看起来比较自然。一些案例如下：

此外，数据集合成的方法也在github上开源了，可以通过自己改写定制合成大量的中文数据集：https://github.com/ankush-me/SynthText

b. IC03 IC13 IC15

ICDAR2003/2013/2015 Robust Reading Challenge 比赛用数据集，数据集的每一张图片都来自真实的场景，并且做好了标注。但是样本比较少，合起来只有几千张。一些样例如下图所示：

c. COCO-Text

ICDAR2017 Robust Reading Challenge 的数据集，和上面两个数据集类似，是实景采集的图片，但是规模要大不少，有63686个样本。一些样本示例如下图所示：

d. IIIT

IIIT 5k words 数据集是从谷歌图像搜索中获得的。主要包括广告牌，招牌，门牌号，门牌，电影海报被用来收集图像。数据集包含5000个样本，一些示例如下图所示：

e. SVT

SVT（Street View Text）为街景中含文本的图片数据集，2012年发布，和 IC13/15/17类似，总共包含350张图片，一些样例如下图所示：

f. CUTE

CUTE（Curve Text ）包含80张含弯曲文本的图像及标注。一些样例如下图所示：

g. ICDAR 2017 RCTW

ICDAR 大赛中文识别数据集RCTW（Reading Chinese Text in the Wild），包含一万多张含中文文本的自然场景图片。一些样例如下图所示：

h. 汇总

上文还有很多数据集没有覆盖到，除了第一个SynthText (ST)规模较大，其他的数据集大多不足以训练一个模型。通常的做法是，根据具体的识别场景（中文/英文，街景/文档等），先用SynthText (ST)训练，然后再用小规模数据集调优。

下表汇总了OCR领域常用的数据集：参考：https://www.ctolib.com/HCIILAB-Scene-Text-Recognition.html

Datasets

Language

Images

Lexicon

Label

Type

Pictures

Training Pictures

Testing Pictures

Instances

Training Instances

Testing Instances

Full

None

Char

Word

IIIT5K[31]

English

1120

380

740

5000

2000

3000

√

Regular

SVT[32]

English

350

100

250

725

211

514

√

Regular

IC03[33]

English

509

258

251

2268

1157

1111

√

Regular

IC13[34]

English

561

420

141

5003

3564

1439

√

Regular

SVHN[45]

Digits

600000

573968

26032

600000

573968

26032

√

Regular

SVT-P[35]

English

238

639

√

Irregular

CUTE80[36]

English

288

√

Irregular

IC15[37]

English

1500

1000

500

6545

4468

2077

√

Irregular

COCO-Text[38]

English

63686

43686

10000

145859

118309

27550

√

Irregular

Total-Text[39]

English

1555

1255

300

11459

11166

293

√

Irregular

RCTW-17[40]

Chinese/English

12514

11514

1000

√

Regular

MTWI[41]

Chinese/English

20000

10000

290206

141476

148730

√

Regular

CTW[42]

Chinese/English

32285

25887

3269

1018402

812872

103519

√

Regular

SCUT-CTW1500[43]

Chinese/English

1500

1000

500

10751

7683

3068

√

Irregular

LSVT[57], [63]

Chinese/English

450000

30000

20000

√

Irregular

ArT[58]

Chinese/English

10166

5603

4563

98455

50029

48426

√

Irregular

ReCTS-25k[59]

Chinese/English

25000

20000

5000

119713

108924

10789

√

Irregular

MLT[81]

Multilingual

20000

10000

191639

89177

102462

√

Irregular

Synth90k[53]

English

~9000000

√

Regular

SynthText[54]

English

~6000000

√

Regular

Verisimilar Synthesis[73]

English

~5000000

√

Regular

UnrealText[88]

English

~600000

~12000000

√

Regular

1.2 文本识别数据集

文本识别数据集和文本检测数据集的区别在于，文本识别数据集中的图片主体是文本，而没有大量的背景。

文本识别数据集的获取方法有两种，一种是通过文本检测数据集的标注信息，从文本检测数据集中截取含文本的部分，作为文本识别数据集。

第二种方式是人工合成数据集，其中最经典的数据集是 Synthetic Word Dataset，包含800万张合成图片，同样由牛津大学工程科学系视觉几何组合成，一些图片样例如下：

此外，可以利用开源项目：https://github.com/Belval/TextRecognitionDataGenerator 来合成自己想要的数据集。还有很多其它的文本合成开源项目，但是方法大同小异，只要熟悉其中一个，即可通过自己的修改达到自己想要的效果。

关于该开源项目的使用方法，请参考：OCR数据集生成利器—TextRecognitionDataGenerator

2. 深度学习OCR算法

当前深度学习OCR算法均采用上述的两阶段模式：文本检测+文本识别，端到端的方式虽有研究，但是效果不佳。

2.1 文本检测

其中文本检测是目标检测算法中的一种，由于目标检测算法发展比较快，所以文本检测算法的发展也比较快。早期，文本检测借鉴目标检测的思想，采用 YOLO V3 和 faster-RCNN 取得了一定的效果，但是由于文本的以下特点：

（1）文字和文字之前存在空隙

（2）文字可能和背景的区分度不够大

（3）文本检测要求极高的精度，否则会对后面的识别带来很大的困难。

所以现在这些常规的目标检测算法基本上在文本检测领域被淘汰，取而代之的是专用的文本检测算法。

a. CTPN

CTPN的核心思想是将图片按宽度为16像素分成很多个小格，检测每一个小格中是否包含文本，同时预测文本的高度和宽度。最后将多个检测结果融合，形成最终的文本框。

原理可以参考：

自然场景文本检测技术综述（CTPN, SegLink, EAST）

场景文字检测—CTPN原理与实现

实现可以参考：

文本检测CTPN的实现可以参考博客：【OCR技术系列之六】文本检测CTPN的代码实现，对应的github地址为：https://github.com/AstarLight/Lets_OCR/tree/master/detector/ctpn，该实现基于pytorch框架。

tensorflow的实现：https://github.com/eragonruan/text-detection-ctpn

后一个项目的检测效果如下（提供的训练好的模型），可以看到对于水平的文本，检测效果相当不错，我也试了一些模糊的照片，可以说，对于水平文本来说，很少有模型的文本检测效果超过CTPN。

但是CTPN有一个致命的缺点，就是对于倾斜和弯曲的文本检测效果很差，这个是因为模型自身的原理决定，很难通过训练解决。

b. CRAFT

韩国人工智能公司CLOVA AI 公司2019年提出的算法，可以识别任意角度的文本，而且可以给出图片中每一个像素为文本的置信分。一个识别样例如下图所示：

CRAFT 模型的原来可以参考：

Character Region Awareness for Text Detection解读

CRAFT：基于字符区域感知的文本检测

实现可以参考：

官方实现：pytorch :https://github.com/clovaai/CRAFT-pytorch

由于该模型已经商用，所以官方实现只提供了推理部分，没有提供训练部分，没有办法后续优化。

pytorch 复现：https://github.com/backtime92/CRAFT-Reimplementation 包括训练和推理

keras实现：https://github.com/RubanSeven/CRAFT_keras

c. Seglink

在CTPN基础上进行改进，利用开源项目测试了PAN卡和A卡，由于效果不佳，暂时没有深入研究，从论文的结果来看，在复杂场景下的识别效果要好于CTPN。

原理参考：自然场景文本检测技术综述（CTPN, SegLink, EAST）

github 开源实现：tensorflow 实现 https://github.com/bgshih/seglink

d. EAST

在Seglink基础上的改进算法，在识别倾斜和弯曲文本的效果上比较好，同样利用开源项目进行了测试，但是项目不是很理想，有待深入研究。从当前的趋势来看，EAST将成为主流的文本检测算法之一。

原理参考：

自然场景文本检测技术综述（CTPN, SegLink, EAST）

文本检测之EAST

开源实现：

tensorflow实现：https://github.com/argman/EAST

总结：

当前文本检测算法还在高速发展当中，比如PixelLink、RRPN和TextBoxes等，从论文的对比结果来看都取得了相当不错的结果，后续可以深入研究。

目前来看，CTPN是应用最为广泛的检测算法，但是由于在倾斜文本上检测的不足，所以使用场景受到一定的限制。

另外，从CRAFT的测试来看，是一种极为高效的算法（计算耗时也不高），并且由于可以得到每一个像素属于文字的置信分，在不同的场景下可以针对性的调优，所以值得重点研究。

2.2 文本识别

相对文本检测而言，文本识别的算法比较有限，主要有两种思路：

（1）CRNN：CNN+RNN+CTC

（2）CNN+Seq2Seq+Attention

a. CRNN：CNN+RNN+CTC

当前应用最为广泛的模型为 CNN+RNN+CTC，其中CNN用于提取图像特征，RNN在CNN提取特征的基础上，通过双向LSTM提取相邻下像素之间的特征，最后CTC用于计算损失函数。

其中CTC实现不定长输入问题的损失函数计算，在语音识别领域应用广泛。

原理参考：

一文读懂CRNN+CTC文字识别

端到端不定长文字识别CRNN算法详解

开源实现：

官方开源：tensorflow实现 https://github.com/bgshih/crnn

pytorch 实现：端到端不定长文本识别CRNN代码实现对应代码：https://github.com/AstarLight/Lets_OCR/tree/master/recognizer/crnn

b. CNN+Seq2Seq+Attention

引入了attention机制，有待研究，但是通过开源项目的测试，效果相当好，应该会逐渐替代CRNN成为主流。

开源实现：

https://github.com/zhang0jhon/AttentionOCR

另外韩国公司CLOVA AI文字识别项目中也实现了这个方法，且用预训练的模型效果非常好：

https://github.com/clovaai/deep-text-recognition-benchmark

这个项目了不起的地方还在于把文本识别模块化（特征提取-序列特征提取-特征转换-预测），使每一个模块可以单独优化，从而量化不同模块的贡献。

2.3 现成可用的库

在英文OCR方面，keras开源库实现了文字检测和文字识别的整合，其中文字检测用的事CRAFT，文字识别用的是CRNN。

而且安装非常方便：pip install keras-ocr

然后就可以通过以下代码进行测试：

import matplotlib.pyplot as plt
 
import keras_ocr
 
# keras-ocr will automatically download pretrained
# weights for the detector and recognizer.
pipeline = keras_ocr.pipeline.Pipeline()
 
# Get a set of three example images
images = [
    keras_ocr.tools.read(url) for url in [
        'test.jpg'
    ]
]
 
# Each list of predictions in prediction_groups is a list of
# (word, box) tuples.
prediction_groups = pipeline.recognize(images)
 
# Plot the predictions
fig, axs = plt.subplots(nrows=len(images), figsize=(20, 20))
for ax, image, predictions in zip(axs, images, prediction_groups):
    keras_ocr.tools.drawAnnotations(image=image, predictions=predictions, ax=ax)

通过简单的几段代码就可以实现完整的OCR识别！识别效果看下图：

英文的识别效果还是相当ok的，中文的话还需要额外训练。开源地址为：https://github.com/faustomorales/keras-ocr

在中文OCR方面，百度开源中英文识别模型，试用下来效果还是不错的：

https://github.com/paddlepaddle/paddlehub

在文本检测上用了DBnet：https://github.com/MhLiao/DB，文本识别上用了CRNN。

在中文OCR需要快速上线的时候可以使用，paddlepaddle的性能也是有保障的。

3. 深度学习相关博客

1、博客园：冠军的试炼博客介绍了很多跟OCR相关的预处理方法（openCV），以及介绍了很多深度学习OCR相关的算法原理和实现。

2、知乎：白裳知乎介绍了很多深度学习相关的OCR算法，原理介绍比较清楚，同时有对应的github开源项目，

3、知乎：燕小花介绍了很多最新的文本检测成果，偏原理介绍

3、Pyimagesearch，微软图像大牛做的一个博客，里面有很多openCV和OCR相关的文章，新手友好。

4、openCV 入门：OpenCV Python中文教程 + 代码

4.相关图书

1、深度实践OCR：基于深度学习的文字识别

阿里团队出版的一本图书，介绍了经典的OCR算法，广度够，深度不够，适合建立一个算法体系。

5.识别加速

OCR 因为用到了两阶段的识别方式，用到的模型也比较复杂，所以在识别速度上有一定欠缺。识别一张复杂图片在不做优化的情况下通常都要 1s 以上，对于追求极致性能的场景需要对模型的推理速度进行优化，目前，模型推理速度优化用得比较多的工具主要有腾讯家的ncnn 和阿里的mnn。

腾讯ncnn: https://github.com/Tencent/ncnn

阿里mnn:https://github.com/alibaba/MNN

Linux中如何终止进程？这三种办法要刻在脑子里 wljslmz Linux技术 linux 运维服务器
在Linux中，进程是程序运行时的实例。简单来说，每当你启动一个应用（比如Firefox浏览器或一个脚本），系统就会为它创建一个进程，并分配一个唯一的编号——进程ID（简称PID）。通过这个PID，系统知道该如何管理和调度它。但进程并非总是乖乖听话。以下几种情况，可能让你不得不挥起“终结者”之手：无响应：程序卡死，窗口一动不动，怎么点都没反应。资源霸占：某个进程狂吃CPU或内存，让系统慢如蜗牛。任
《基于单片机的交通灯设计与实现（附论文+源代码）》 Blossom.118 单片机课程设计系列单片机嵌入式硬件单片机课程设计 51单片机工科软硬件技术 stm32 c++
1、项目背景交通灯控制系统是城市交通管理的重要组成部分，其作用是合理分配道路资源，缓解交通拥堵，保障行人和车辆的安全。传统的交通灯系统多为固定时长控制，而基于单片机的交通灯控制系统可以通过编程实现更灵活的控制逻辑，例如根据车流量调整信号时长，甚至实现智能交通管理。2、设计思想交通灯设计是以单片机AT89C51芯片作为核心原件，LED灯、八段数码管等构成交通灯显示系统，利用单片机的电源电路、时钟电路
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
算力网络技术创新驱动生态协同发展智能计算研究中心其他
内容概要算力网络作为数字经济发展的核心基础设施，正经历从单一性能提升向体系化技术协同的范式转变。当前技术创新主要聚焦三大维度：在架构层面，通过异构计算、量子计算与神经形态计算的融合，突破传统芯片制程限制；在调度层面，依托分布式计算与流批处理技术，实现跨边缘节点、工业互联网平台与超算中心的资源动态编排；在生态层面，围绕能效管理、安全标准与算法优化构建全链条能力，支撑金融风险评估、基因测序等高复杂度场
A800架构设计与实战智能计算研究中心其他
内容概要《A800架构设计与实战》围绕新一代计算架构的技术演进与工程落地展开系统性论述。全书以分布式运算优化原理为切入点，通过对核心模块的层级化拆解，深入剖析多节点协同计算中的资源分配、任务调度及通信瓶颈突破方法。为强化理论与实践的结合，书中引入智能制造与云渲染两大典型场景的完整案例，覆盖从需求分析、架构设计到性能调优的全生命周期。技术维度实现路径应用价值架构设计核心模块拆分与重组降低系统耦合度分
生成对抗网络优化医疗影像分析方法智能计算研究中心其他
内容概要生成对抗网络（GAN）在医疗影像分析中的应用正经历从理论验证到临床落地的关键转型。本研究通过整合联邦学习算法与动态数据增强技术，构建了跨机构医疗影像协同分析框架，在保证患者隐私的前提下实现了数据资源的有效扩展。值得注意的是，算法优化过程中采用的三阶段特征工程策略——包括基于注意力机制的特征选择、多尺度特征融合以及可解释性特征映射——使模型决策透明度提升约37.6%。临床实践表明，将联邦学习
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
什么是"外包"？一文读懂企业外包那些事程序员
什么是"外包"？一文读懂企业外包那些事在当今快速发展的商业环境中，"外包"已经成为一个非常普遍的商业模式。今天，让我们一起来了解什么是外包，以及为什么越来越多的企业选择外包服务。什么是外包？外包（Outsourcing）是指企业将某些非核心业务委托给外部专业机构来完成的一种商业模式。从图中我们可以看到一个典型的外包链条：公司A→公司B→工头C。外包产生的原因1.公司A（发包方）的特点：内部人力资源
Python+Selenium 使用webdriver-manager解决浏览器与驱动不匹配所带来自动化无法执行的问题_web自动化最新版本浏览器驱动,驱动连接不了浏览器 2401_84140040 程序员 python 学习面试
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
边缘计算（Edge Computing） Dream Algorithm 边缘计算人工智能
边缘计算（EdgeComputing）是一种分布式计算范式，它将数据处理和存储功能从传统的集中式云端转移到靠近数据源的网络边缘设备（如路由器、网关、本地服务器或终端设备）。边缘计算的目标是减少数据传输延迟、降低带宽压力，并提高系统的实时性和可靠性。边缘计算的核心概念靠近数据源边缘计算将计算资源部署在靠近数据生成的地方，而不是将所有数据发送到远程云端处理。分布式架构边缘计算采用分布式架构，将计算任务
【超全总结】JMeter vs K6 vs Locust，性能测试工具终极对比！软件测试 jmeter 测试工具
引言在现代软件开发中，性能测试是保障系统稳定性和高并发能力的关键环节。然而，面对市面上众多的性能测试工具，我们该如何选择？今天，我们将对JMeter、K6、Locust进行全面对比，帮你找到最适合你的工具！1.工具概览工具语言适用场景优点缺点JMeterJava传统性能测试、WebAPI测试功能强大、插件丰富、支持GUI学习曲线陡峭，资源消耗大K6JavaScript现代DevOps、CI/CD集
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
树莓科技集团董事长：第五代产业园运营模式的深度剖析与展望树莓集团科技人工智能百度物联网大数据
第五代产业园运营模式，以创新为核心驱动，强调数字化、网络化和资源整合。树莓科技集团在这一领域具有代表性，其运营模式值得深入剖析。核心特征数字化转型：第五代产业园高度重视数字化技术的应用，通过构建数字化平台，实现园区内企业、资源、信息的互联互通。并网化运营：树莓集团在全国28个省市布局产业园，形成网络化运营，促进资源共享和协同发展。全产业链整合：充分发挥全产业链资源整合优势，为入园企业提供全方位服务
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
前端发布缓存导致白屏解决方案洛祁枫 web 前端前端缓存
解决发布H5后因为本地缓存白屏方案一、核心配置优化（前提是访问网站的请求能抵达服务器）方案一：前端项目设置全局不缓存方案运行逻辑：在H5服务器配置中增加Cache-Control:no-cache或max-age=0响应头，禁用静态资源缓存‌；优点：能在服务器出口处最大可能地解决发布项目缓存问题缺点：用户在不同界面跳转都会重新加载界面信息，影响整个前端加载速度，高并发时容易造成带宽压力方案二：首页
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
HR SaaS平台排行榜：细数2025年中国最具商业价值的十大HR SaaS平台 weixin_54980836 大数据人工智能
在当今竞争激烈且瞬息万变的商业环境中，企业数字化转型已不再是可选项，而是生存与发展的必经之路。人力资源管理作为企业运营的核心支柱之一，正经历着前所未有的深刻变革。传统的HR管理模式已逐渐暴露出效率低下、数据整合困难、决策支持不足等问题，难以满足现代企业对精准、高效、智能人力资源管理的需求。在此背景下，HRSaaS系统应运而生，成为企业优化薪酬管理、提升人力资源效率、实现数字化转型的关键工具。本文将
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
电力行业中实现“电力一张图” 可行方案小赖同学啊人工智能智能硬件能源物联网
在电力行业中实现“电力一张图”，需构建覆盖全业务场景的统一可视化平台，整合电网资源、设备状态、运行数据及地理信息，实现电力系统的数字化、智能化管理。以下是具体的技术实现方案：一、系统架构设计采用分层架构，涵盖数据采集、通信、处理、可视化及应用层：感知层设备部署：在变电站、杆塔、线路、分布式能源等节点部署智能传感器（如温湿度传感器、振动传感器、电流互感器）、智能终端（如FTU/DTU/TTU）、无人
Spring MVC面试题（一）码农小王 spring mvc java
1.什么是SpringMVC？全称为ModelViewController，SpringMVC是Spring的一个模块，基于MVC架构模式的一个框架2.SpringMVC优点？1.可用各种视图技术，不仅限于JSP2.支持各种请求资源映射策略3.SpringMVC工作原理？1.客户端发送请求到DispatcherServlet2.DispatcherServlet查询handlerMapping找到
Redis 分布式锁 DebugDiver代码深处潜水员三方件 redis 分布式数据库
Redis分布式锁是一种在分布式系统中实现互斥访问共享资源的机制。它利用Redis的高性能和原子性操作来确保在多个节点之间安全地获取和释放锁。下面是对Redis分布式锁的原理讲解和源码剖析。原理讲解1.基本概念锁：在分布式系统中，锁用于确保在同一时间只有一个节点能够访问共享资源。分布式锁：分布式锁是一种在多个节点之间共享的锁，通常通过一个共享的存储系统（如Redis）来实现。2.Redis实现分布
并发编程--僵尸进程 k要开心进程并发编程开发语言 c语言
僵尸进程文章目录僵尸进程1.概念2.产生的原因3.释放僵尸进程3.1方法一：父进程直接退出3.2方法二：子进程等待父进程对其执行wait()/waitpid()3.3方法三：子进程主动告知父进程前来收尸1.概念僵尸进程指的是处于僵尸态的进程，这种进程无法进行调度，但其所占用的系统资源并未被释放。僵尸态是进程生命周期的必经阶段，是无法避免的，但为了节约系统资源，应尽快清理腾出僵尸态进程所占用的内存资
2025年渗透测试面试题总结-安恒（题目+回答）独行soc 2025年渗透测试面试指南面试职场和发展安全 web安全红蓝攻防
网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录安恒1.sqlmap爆出当前数据库库名的参数是什么？2.nmap探测系统类型的参数是？3.nmap的小写-o和-A是做啥的？4.布尔盲注的具体语句是啥？5.宽字节原理6.Python是否存在反序列化漏洞？7.GET与POST传参的区别8.HTTP请求方式9.如何判断C
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

一篇入门深度学习OCR：数据集和算法合集

1、OCR数据集和数据集生成工具

2. 深度学习OCR算法

3. 深度学习相关博客

4.相关图书

5.识别加速

你可能感兴趣的:(深度学习,OCR,图像处理,深度学习,ocr,图像处理,资源)