GoAI

《深入浅出OCR》第一章：OCR技术导论

✨专栏介绍： 经过几个月的精心筹备，本作者推出全新系列《深入浅出OCR》专栏，对标最全OCR教程，具体章节如导图所示，将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。

‍面向对象： 本篇前言知识主要介绍深度学习知识，全面总结知知识点，方便小白或AI爱好者学习基础知识。

友情提醒： 本文内容可能未能含概深度学习所有知识点，其他内容可以访问本人主页其他文章或个人博客，同时因本人水平有限，文中如有错误恳请指出，欢迎互相学习交流！

个人主页: GoAI | 公众号: GoAI的学习小屋 | 交流群: 704932595 |个人简介： 掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。

文章目录

《深入浅出OCR》前言知识（二）：深度学习基础总结 （✨文末有深度学习总结导图福利！）

《深入浅出OCR》前言知识（一）：机器学习基础总结 （✨文末有机器学习总结导图福利！）

《深入浅出OCR》第一章：OCR技术导论（本篇）

‍本篇导读： 本篇为《深入浅出OCR》第一章：OCR技术导论主要介绍OCR的概念、分类、应用场景、技术流程、数据集等基础知识进行介绍，方便小白或AI爱好者快速了解OCR方向知识。第二章将对OCR技术展开进一步详细介绍，欢迎大家关注！

《深入浅出OCR》第一章：OCR技术导论

一、OCR概念介绍

OCR是计算机视觉研究领域的分支之一，是计算机科学的重要组成部分。OCR （Optical Character Recognition，光学字符识别）是指电子设备检查纸上打印的字符，经过检测暗、亮的模式肯定其形状，而后用字符识别方法将形状翻译成计算机文字的过程。

简单来说，OCR识别是指通过图像处理和模式识别技术对光学的字符进行识别成我们可以处理的文字信息。 比如日常生活中，我们使用微信长按图片进行识别以提取文字信息用于生活交流，就是用到OCR技术，接下来我将跟大家介绍下OCR的发展历程。

二、OCR发展历程

关于OCR技术发展历程，本人大致将其分为以下几类：

概念提出： OCR的概念是在1929年由德国科学家Tausheck最早提出来的，后来美国科学家Handel也提出利用技术对文字进行识别想法。最先对印刷体汉字识别进行研究的是IBM公司，于1966年发表第一篇关于汉字识别的文章，采用模板匹配法识别印刷体汉字。
发展研究： 早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统。
形成产品： 在70年代，中国开始对数字、英文字母及符号识别进行研究，1986年，我国提出“863”高新科技研究计划，汉字识别的研究进入一个实质性阶段，相继推出中文OCR产品。早期OCR软件，因为识别率、硬件设备成本高及产品化等多方面的因素，未能达到实际要求。
百花齐放： 进入20世纪90年代之后，随着信息自动化普及，大大推进了OCR技术的进一步发展，使OCR的识别正确率和速度满足广大用户需求。随着人工智能技术不断发展，OCR软件产品已趋于成熟，可以识别各类语言、各类场景下识别，代表有全能扫描王、天若OCR等。

三、OCR的应用场景

3.1 OCR产品应用

衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

OCR产品在商业价值上具有广泛的应用场景，打造一款成熟的OCR产品需要考虑从基础资源到设备接入各个环节，因此各大互联网公司纷纷推出相关技术支持或应用，覆盖金融、交通、教育、医疗等多个行业领域。具体应用场景包括但不限于：

金融领域： OCR技术可以用于银行卡识别、身份证识别、发票和收据识别，以加快客户开户、贷款申请和账单处理等金融服务流程。
物流和交通领域： OCR技术可用于快递单和车牌识别，以提高物流运营效率和交通管理效率。
教育领域： OCR可用于试卷批改和答题卡识别，自动化评分和统计学生成绩。
医疗领域： OCR技术可以用于医疗记录和处方识别，帮助医疗机构提高信息管理效率。
商业和广告领域： OCR可以用于广告牌、商品包装袋、营业证等文本的识别，帮助企业更好地进行广告推广和品牌管理。
名片扫描： OCR技术可用于扫描名片并将其转换为联系人信息，方便用户管理和整理。

3.2 OCR识别分类

根据OCR的应用场景而言，OCR可以大致分成识别特定场景下的专用识别和多种（自然和复杂）场景下的通用识别。其中证件识别以及车牌识别是专用OCR的典型案例。

按照识别场景划分，可分为:

文档文字识别：可以将图书馆、报社、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献档案资料等进行电子化管理，实现精准地保存文献资料。
自然场景文字识别：识别自然场景图像中的文字信息如车牌、广告干词、路牌等信息。对车辆进行识别可以实现停车场收费管理、交通流量控制指标测量、车辆定位、防盗、高速公路超速自动化监管等功能。
票据文字识别：可以对增值税发票、报销单、车票等不同格式的票据进行文字识别，可以避免财务人员手动输入大量票据信息，如今已广泛应用于财务管理、银行、金融等众多领域。。
证件识别：可以快速识别身份证、银行卡、驾驶证等卡证类信息，将证件文字信息直接转换为可编辑文本，可以大大提高工作效率、减少人工成本、还可以实时进行相关人员的身份核验，以便安全管理。

按照文字形成方式划分，可分为:

标准印刷体文字的识别（包括印刷体数字、汉字、英文）;
手写文字的识别（包括手写数字、汉字、英文）;
即存在印刷体又存在手写体的文字识别；
艺术体、合成文字等复杂字体识别；

总结：经过上述分类，我们可以了解到不同文字的应用场景可能包含了多种文字的形成方式，文字的形成方式又包含了文字的字体，最终形成一张包含文本的图像来让我们识别，因此识别起来会有不同的难度，因此。接下来我们将对OCR难点进行讨论。

3.3 OCR识别难点

OCR识别场景包括传统文档图像识别与场景文本识别技术。针对特定场景进行设计、优化以达到最好的特定场景下的效果展示。而通用OCR则使用在更多、更复杂的场景下，拥有比较好的泛性。由于场景的不确定性，比如：图片背景极其丰富、亮度不均衡、光照不均衡、残缺遮挡、文字扭曲、字体多样等等问题，会给识别效果带来极大的挑战。

3.3.1 自然场景识别难点：

自然场景下的文本通常出现在复杂的背景中，且文本的字体、颜色、大小和方向都可能不同。例如路标、广告牌和商品包装等。
不同于传统的扫描图像文本，自然场景文本因表现形式丰富，图像背景复杂，以及图像拍摄引入的干扰因素等的影响，其识别的难点包括但不限于以下几个方面:

图片背景多变： 经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题，还可能会受到噪声的影响，例如风沙、雨雪等天气条件，以及拍摄设备本身的噪声等，使得对其的分析与处理难度远高于传统的扫描文档图像。
文字弯曲： 文本的布局可能存在扭曲、褶皱、换向等问题，其中的文字也可能字体多样、字号字重颜色不一的问题。
文本格式： 自然场景中的文字数量较多，且分布较为分散，这使得算法的训练难度加大。针对长文本，需要处理文本行之间的连续性和上下文关系。针对多行文本，需要进行有效的文本区域分割和识别。
数据规模与资源 为训练和优化深度学习OCR模型，需要大规模的数据集和充足的计算资源。然而，自然场景OCR数据集往往比较难以获取和标注，同时深度学习模型的训练也需要较大的计算开销。

3.3.2 文档文字识别难点：

尽管普通文档识别相较于场景文本识别来说通常难度较小，但在特定领域中仍存在许多挑战。例如，针对票据扫描的目标检测，由于扫描仪分辨率低、纸张和油墨质量差等因素的影响，导致所扫描的票据质量低下。此外，字体过小以及干扰文本也是需要考虑的问题。

此外，针对复杂场景（复杂版面、数学公式、表格、结构化符号/图形等）的识别效果仍存在一定提升空间。

3.4 识别难点解决办法：

关于上述不同场景OCR技术面临许多挑战，需要更强大算法来应对文本的多样性和背景的复杂性。那么我们从那些角度入手解决上述问题呢？

以下为作者简单列出几点通用的解决方法，：

数据增强： 通过对训练数据进行增强，如随机旋转、缩放、裁剪、变换和加噪声等，可以使OCR模型更好地适应不同的图像条件和多样性。
多尺度检测： 设计多尺度的检测模型可以在不同大小和分辨率的文本实例中进行检测，从而提高对不同文本大小和形状的适应性。
背景抑制： 采用背景抑制技术，通过将注意力集中在文本区域，忽略或减弱背景干扰，从而提高文本检测的准确性。
多任务学习： 将文本检测和识别任务结合起来进行多任务学习，可以更好地处理复杂场景中的文本实例，并提高整体性能。
引入先验知识： 利用先验知识，如字符形状、文本的统计信息等，对文本进行建模，可以提高对复杂文本实例的理解和识别。
迁移学习|强化学习： 使用迁移学习或强化学习技术来优化OCR模型，使其能够在不同场景下进行更好的适应和调整。

四、OCR技术流程

上述介绍完OCR识别难点及对应解决办法，接下来我们将着重对OCR技术流程进行介绍。典型的OCR技术pipline如下图所示：

其中，文本检测和识别是OCR技术的两个重要核心技术。

4.1 图像预处理：

图像预处理是OCR流程的第一步，用于提高字符识别的准确性。常见的预处理操作包括灰度化、二值化和去噪。

灰度化将彩色图像转换为灰度图像，将每个像素的RGB值转换为相应的灰度值。在灰度图像中每个像素只有一个灰度值，简化后续的处理步骤。
二值化将灰度图像转换为二值图像，将灰度值高于某个阈值的像素设为白色，低于阈值的像素设为黑色。这将图像转换为黑白二值图像，方便后续的文本定位和字符分割。
去噪是为了减少图像中的噪声和干扰，以提高后续处理的准确性。常用的去噪方法包括中值滤波、高斯滤波和形态学操作。

此外，针对不规则文本识别，在预处理阶段可以先进行校正操作再进行识别。

4.2 文字检测

文本检测的任务是定位出输入图像中的文字区域。

近年来，使用深度学习进行文本检测成为主流技术，一类方法将文本检测视为目标检测中的一个特定场景，基于通用目标检测算法进行改进适配，如TextBoxes 基于一阶段目标检测器SSD 算法，调整目标框使之适合极端长宽比的文本行，CTPN则是基于Faster RCNN架构改进而来。但是文本检测与目标检测在目标信息以及任务本身上仍存在一些区别，如文本一般长宽比较大，往往呈“条状”，文本行之间可能比较密集，弯曲文本等，因此又衍生了很多专用于文本检测的算法，如EAST、PSENet、DBNet 等等。

注：文字检测具体介绍将在后续章节更新。

4.3 文字识别

文本识别的任务是识别出图像中的文字内容。

文本识别一般输入来自于文本检测得到的文本框截取出的图像文字区域。文本识别一般可以根据待识别文本形状分为规则文本识别和不规则文本识别两大类。不规则文本场景具有很大的挑战性，也是目前文本识别领域的主要研究方向。

规则文本主要指印刷字体、扫描文本等，文本大致处在水平线位置，如下图左半部分；
不规则文本往往不在水平位置，存在弯曲、遮挡、模糊等问题，如下图右半部分。

注：文字识别具体介绍将在后续章节更新。

五、OCR常见数据集

5.1 数据集介绍

5.1.1 规则数据集

IIIT5K-Words (IIIT) 2000 for Train; 3000 for Test
Street View Text (SVT) 257 for Train; 647 for Test
ICDAR 2003(IC03) 、ICDAR2013 (IC13)

以ICDAR2013为例：

该数据集由500张左右英文标注的自然场景图片构成，标注形式为两点水平标注，坐标格式为左上角，和右下角，

5.1.2 不规则数据集

ICDAR2015 (IC15) 4468 for Train; 2077 for Test;
SVT Perspective (SP) 645 for Test
CUTE80 (CT) 288 for Test

以ICDAR2015为例：

该数据集由1500张（训练1000，测试500）英文标注的自然场景图片构成，标注形式为四点标注，坐标格式依次为为左上角，右上角，右下角和左下角。如下图所示：

5.1.3 合成数据集

SynthText(ST) 5.5million个图像，样例图如下：

5.1.4中文场景数据集

Chinese Text in the Wild (CTW)：

CTW数据集是一个针对中文场景文本的数据集，用于文本检测和识别任务。CTW数据集包含了超过40,000张高分辨率的中文场景图像，这些图像从不同来源和环境中获取，具有广泛的多样性。

注：以上仅简单列举部分数据集，具体介绍将在后续章节更新。

六、常见OCR识别模型评估对比

注：评价指标为准确率。

		Regular Dataset	Irregular dataset
Model	Year	IIIT	SVT	IC13(857)	IC13(1015)	IC15(1811)	IC15(2077)	SVTP	CUTE
CRNN	2015	78.2	80.8	-	86.7	-	-	-	-
ASTER(L2R)	2015	92.67	91.16	-	90.74	76.1	-	78.76	76.39
CombBest	2019	87.9	87.5	93.6	92.3	77.6	71.8	79.2	74
ESIR	2019	93.3	90.2	-	91.3	-	76.9	79.6	83.3
SE-ASTER	2020	93.8	89.6	-	92.8	80		81.4	83.6
DAN	2020	94.3	89.2	-	93.9	-	74.5	80	84.4
RobustScanner	2020	95.3	88.1	-	94.8	-	77.1	79.5	90.3
AutoSTR	2020	94.7	90.9	-	94.2	81.8	-	81.7	-
Yang et al.	2020	94.7	88.9	-	93.2	79.5	77.1	80.9	85.4
SATRN	2020	92.8	91.3	-	94.1	-	79	86.5	87.8
SRN	2020	94.8	91.5	95.5	-	82.7	-	85.1	87.8
GA-SPIN	2021	95.2	90.9	-	94.8	82.8	79.5	83.2	87.5
PREN2D	2021	95.6	94	96.4	-	83	-	87.6	91.7
Bhunia et al.	2021	95.2	92.2	-	95.5	-	84	85.7	89.7
Luo et al.	2021	95.6	90.6	-	96.0	83.9	81.4	85.1	91.3
VisionLAN	2021	95.8	91.7	95.7	-	83.7	-	86	88.5
ABINet	2021	96.2	93.5	97.4	-	86.0	-	89.3	89.2
MATRN	2021	96.7	94.9	97.9	95.8	86.6	82.9	90.5	94.1

七、主流OCR识别应用平台

百度开放平台:PaddleOCR
商汤科技OpenMMLab : MMOCR
谷歌开源OCR引擎:Tesseract

后续系列将依次继续详细介绍，并包括使用上述框架进行OCR项目实战!

八、OCR资源推荐

作者整理了以下OCR方面的资源：

优秀OCR资源推荐：

OCR专栏：《深度浅出OCR》
OCR合集： handong1587
Awesome-Scene-Text-Recognition

论文相关：

OCR论文更新：链接
顶会会议文章：ICDAR、CVPR、ECCV、ICCV等
Arxiv搜索引擎：http://www.arxiv-sanity.com/

九、国内OCR领域优秀学者

白翔，黄伟林，金连文，刘成林，殷绪成
注：不分先后顺序

十、 OCR大模型未来发展

如今，大模型的爆火给OCR领域带来的挑战与机遇，在运用大模型前，我们要知道大模型是如何阅读文档的。因此，针对OCR的模型的设计仍然很重要。

发展与机遇

将大模型运用到OCR领域，其识别精度可能不高，还没有大规模验证
大模型仍有很多不足，不适用所有领域
充分利用大模型：特征表示、语言能力
不同任务的专用模型和学习算法：仍然大有可为

十一、OCR资料整理分享：

本篇文章最后，免费分享博主本人参考开源资料整理的OCR相关论文汇总，将其按年份、数据集、所属方法及论文关键词等信息进行全面分类总结，最近几年论文正在整理中，欢迎大家持续关注和学习交流！另外，文中如有错误，欢迎指正！

关注文章开头公众号： GoAI的学习小屋，回复“OCR论文” 获取以下表格。

总结：本篇《深入浅出OCR》第一章：OCR技术导论主要介绍OCR的概念、分类、应用场景、技术流程、数据集及资源等进行介绍。第二章将对OCR技术展开详细介绍，方便学习者快速了解OCR方向知识。

一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
OCR识别常见开源库 yxfamyself 计算机视觉 opencv
OCR（OpticalCharacterRecognition，光学字符识别）技术是一种将印刷体或手写文字转化为可编辑文本的技术。亦即将图像中的文字进行识别，并以文本的形式返回。做OCR有很多库可以使用。免费开源库有：Tesseract，PaddleOCR。商业付费OCR有：腾讯云OCR，阿里云OCR。下面分别介绍。准确识别的前提是找到正确的字体进行训练，字体很重要，要覆盖所有识别的场景。Tess
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
10分钟读完《每天最重要的2小时》读书周盛欢读书
关于作者乔西・戴维斯（JoséDavis），美国知名作家、演讲家和效率专家。他长期致力于研究人类行为、认知科学以及时间管理等领域，通过结合前沿科学研究成果与实际案例，为读者提供实用且有效的个人成长建议。其作品风格深入浅出，深受广大读者喜爱与认可。关于本书《每天最重要的2小时》是一本聚焦于时间管理与个人效率提升的实用指南。书中，作者乔西・戴维斯基于神经科学、心理学等多学科研究成果，深入剖析了人们在日
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
前端开发：这就是终点吗？前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读让我们重新回到2021年后远程办公风潮兴起的日子，那时候，程序员岗位炙手可热。机会遍地都是，你甚至只需参加少量培训，通过面试后便能轻松收获年薪超15万的工作，还有余暇拍摄一段《程序员的一天》上传网络。经过短短一年左右的培训，你便踏上了年薪六位数的职业道路——那时候，当程序员似乎是一个人人羡慕的理想职业。然而
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

《深入浅出OCR》第一章：OCR技术导论

《深入浅出OCR》第一章：OCR技术导论

一、OCR概念介绍

二、OCR发展历程

三、OCR的应用场景

3.1 OCR产品应用

3.2 OCR识别分类

3.3 OCR识别难点

3.3.1 自然场景识别难点：

3.3.2 文档文字识别难点：

3.4 识别难点解决办法：

四、OCR技术流程

4.1 图像预处理：

4.2 文字检测

4.3 文字识别

五、OCR常见数据集

5.1 数据集介绍

5.1.1 规则数据集

5.1.2 不规则数据集

5.1.3 合成数据集

5.1.4中文场景数据集

六、常见OCR识别模型评估对比

七、主流OCR识别应用平台

八、OCR资源推荐

九、国内OCR领域优秀学者

十、 OCR大模型未来发展

十一、OCR资料整理分享：

你可能感兴趣的:(深入浅出OCR,ocr,计算机视觉,深度学习,人工智能)