dieqms

自然场景文本检测识别技术综述【转】

转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565

番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么？

白蛇: 白纸黑字的扫描文档识别技术已经很成熟，而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。

青蛇: 文本检测模型CTPN中为什么选用VGG16作基础网络?

白蛇: CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基础网络。如果今年实施文本检测, 可以试试Resnet、FCN、Densenet等后起之秀作基础网络，或许有惊喜。

摘要本文介绍图像文本识别（OCR）领域的最新技术进展。首先介绍应用背景，包括面临的技术挑战、典型应用场景、系统实施框架等。接着介绍搭建图文识别模型过程中经常被引用到的多种特征提取基础网络、物体检测网络框架，以及它们被应用到图文识别任务中所面临的场景适配问题。然后介绍最近三年来出现的各种文本边框检测模型、文字内容识别模型、端到端图文识别模型。最后介绍图文识别领域的大型公开数据集。

应用概述

OCR（Optical Character Recognition, 光学字符识别）传统上指对输入扫描文档图像进行分析处理，识别出图像中文字信息。场景文字识别（Scene Text Recognition，STR）指识别自然场景图片中的文字信息。自然场景图像中的文字识别，其难度远大于扫描文档图像中的文字识别，因为它的文字展现形式极其丰富：

·允许多种语言文本混合，字符可以有不同的大小、字体、颜色、亮度、对比度等。
·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。
·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理，比如沙地、草丛、栅栏、砖墙等。

也有人用OCR技术泛指所有图像文字检测和识别技术，包括传统OCR技术与场景文字识别技术。这是因为，场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。

图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

已经有不少服务商在提供图像文字检测和识别服务，这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业，也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务，也可以使用客户提供的数据集训练定制化模型（如票据识别模型），以及提供定制化AI服务系统集成等。

如下图所示，传统技术解决方案中，是先分别训练文字检测和文本识别两个模型，然后在服务实施阶段将这两个模型串联到数据流水线中组成图文识别系统。

如下图所示，最近流行的技术解决方案中，是用一个多目标网络直接训练出一个端到端的模型。在训练阶段，该模型的输入是训练图像及图中文本坐标、文本内容，模型优化目标是输出端边框坐标预测误差与文本内容预测误差的加权和。在服务实施阶段，原始图片流过该模型直接输出预测文本信息。相比于传统方案，该方案中模型训练效率更高、服务运营阶段资源开销更少。

文本检测和识别技术处于一个学科交叉点，其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量，又需要借助自然语言处理技术来解码图像特征向量为文字结果。

模型基础

从公开论文中可以看到，起源于图像分类、检测、语义分割等视觉处理任务的各个基础网络（backbone network），纷纷被征用来提取图像中文字区域的特征向量。同时，起源于物体检测、语义分割任务的多个网络框架，也被改造后用于提升图文识别任务中的准确率和执行速度。本章将简单温习一下这些基础网络、网络框架的实现原理，并介绍图文识别任务中应用它们时所面临的各种场景适配问题。

基础网络

图文识别任务中充当特征提取模块的基础网络，可以来源于通用场景的图像分类模型。例如，VGGNet，ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。

图文识别任务中的基础网络，也可以来源于特定场景的专用网络模型。例如，擅长提取图像细节特征的FCN网络，擅长做图形矫正的STN网络。

由于大家对通用网络模型已经很熟悉，所以本节只简单介绍上述专用网络模型。

FCN网络

全卷积网络（FCN,fully convolutional network），是去除了全连接(fc)层的基础网络，最初是用于实现语义分割任务。FC的优势在于利用反卷积（deconvolution）、上池化（unpooling）等上采样（upsampling）操作，将特征矩阵恢复到接近原图尺寸，然后对每一个位置上的像素做类别预测，从而能识别出更清晰的物体边界。基于FCN的检测网络，不再经过候选区域回归出物体边框, 而是根据高分辨率的特征图直接预测物体边框。因为不需要像Faster-RCNN那样在训练前定义好候选框长宽比例，FCN在预测不规则物体边界时更加鲁棒。由于FCN网络最后一层特征图的像素分辨率较高，而图文识别任务中需要依赖清晰的文字笔画来区分不同字符（特别是汉字），所以FCN网络很适合用来提取文本特征。当FCN被用于图文识别任务时，最后一层特征图中每个像素将被分成文字行（前景）和非文字行（背景）两个类别。

STN网络

空间变换网络（STN，Spatial Transformer Networks）的作用是对输入特征图进行空间位置矫正得到输出特征图，这个矫正过程是可以进行梯度传导的，从而能够支持端到端的模型训练。

如下图所示，STN网络由定位网络（Localization Network），网格生成器（Grid generator），采样器（Sampler）共3个部分组成。定位网络根据原始特征图U计算出一套控制参数，网格生成器这套控制参数产生采样网格（sampling grid），采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。

空间变换的控制参数是根据原始特征图U动态生成的，生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重（weights）矩阵中。

选自arXiv: 1506.02025，’Spatial Transformer Networks

检测网络框架

Faster RCNN作为一个检测网络框架，其目标是寻找紧凑包围被检测对象的边框（BBOX，Bounding Box）。如下图所示，它在Fast RCNN检测框架基础上引入区域建议网络（RPN，Region Proposal Network），来快速产生与目标物体长宽比例接近的多个候选区域参考框（anchor）；它通过ROI（Region of Interest） Pooling层为多种尺寸参考框产生出归一化固定尺寸的区域特征；它利用共享的CNN卷积网络同时向上述RPN网络和ROI Pooling层输入特征映射（Feature Maps），从而减少卷积层参数量和计算量。训练过程中使用到了多目标损失函数，包括RPN网络、ROI Pooling层的边框分类loss和坐标回归loss。通过这些loss的梯度反向传播，能够调节候选框的坐标、并增大它与标注对象边框的重叠度/交并比(IOU，Intersection over Union）。RPN网格生成的候选框初始值有固定位置以及长宽比例。如果候选框初始长宽比例设置得与图像中物体形状差别很大，就很难通过回归找到一个紧凑包围它的边框。

摘自arXiv:1506.01497，’Faster R-CNN: Towards Real-Ti

SSD（Single Shot MultiBox Detector），是2016年提出的一种全卷积目标检测算法，截止到目前仍是主要的目标检测框架之一，相比Faster RCNN有着明显的速度优势。如下图所示，SSD是一种one stage算法，直接预测被检测对象的边框和得分。检测过程中，SSD算法利用多尺度思想进行检测，在不同尺度的特征图(feature maps)上产生与目标物体长宽比例接近的多个默认框(Default boxes)，进行回归与分类。最后利用非极大值抑制(Non-maximum suppression)得到最终的检测结果。训练过程中，SSD采用Hard negative mining策略进行训练，使正负样本比例保持为1：3，同时使用多种数据增广(Data augmentation)方式进行训练，提高模型性能。

摘自arxiv: 1512.02325， “SSD: Single Shot MultiBox

文本检测模型

文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。

但是，视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果并不理想，主要原因如下：

·相比于常规物体，文字行长度、长宽比例变化范围很大。
·文本行是有方向性的。常规物体边框BBox的四元组描述方式信息量不充足。
·自然场景中某些物体局部图像与字母形状相似，如果不参考图像全局信息将有误报。
·有些艺术字体使用了弯曲的文本行，而手写字体变化模式也很多。
·由于丰富的背景图像干扰，手工设计特征在自然场景文本识别任务中不够鲁棒。

针对上述问题根因，近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制（NMS）、半监督学习等角度对常规物体检测方法进行改造，极大提升了自然场景图像中文本检测的准确率。例如：

·CTPN方案中，用BLSTM模块提取字符所在图像上下文特征，以提高文本块识别精度。
·RRPN等方案中，文本框标注采用BBOX +方向角度值的形式，模型中产生出可旋转的文字区域候选框，并在边框回归计算过程中找到待测文本行的倾斜角度。
·DMPNet等方案中，使用四边形（非矩形）标注文本框，来更紧凑的包围文本区域。
·SegLink 将单词切割为更易检测的小文字块，再预测邻近连接将小文字块连成词。
·TextBoxes等方案中，调整了文字区域参考框的长宽比例，并将特征层卷积核调整为长方形，从而更适合检测出细长型的文本行。
·FTSN方案中，作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
·WordSup方案中，采用半监督学习策略，用单词级标注数据来训练字符级文本检测模型。

下面用近年来出现的多个模型案例，介绍如何应用上述各方法提升图像文本检测的效果。

CTPN模型

CTPN是目前流传最广、影响最大的开源文本检测模型，可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence，而不是一般物体检测中单个独立的目标。同一文本行上各个字符图像间可以互为上下文，在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律，可以使得预测阶段有效提升文本块预测准确率。CTPN模型的图像预测流程中，前端使用当时流行的VGG16做基础网络来提取各字符的局部图像特征，中间使用BLSTM层提取字符序列上下文特征，然后通过FC全连接层，末端经过预测分支输出各个文字块的坐标值和分类结果概率值。在数据后处理阶段，将合并相邻的小文字块为文本行。

选自arXiv: 1609.03605，’Detecting Text in Natural Im

RRPN模型

基于旋转区域候选网络（RRPN, Rotation Region Proposal Networks）的方案，将旋转因素并入经典区域候选网络（如Faster RCNN）。这种方案中，一个文本区域的ground truth被表示为具有5元组(x,y,h,w,θ)的旋转边框, 坐标(x,y)表示边框的几何中心, 高度h设定为边框的短边，宽度w为长边，方向是长边的方向。训练时，首先生成含有文本方向角的倾斜候选框，然后在边框回归过程中学习文本方向角。

选自arXiv: 1703.01086，’Arbitrary-Oriented Scene Tex

RRPN中方案中提出了旋转感兴趣区域（RRoI，Rotation Region-of-Interest）池化层，将任意方向的区域建议先划分成子区域，然后对这些子区域分别做max pooling、并将结果投影到具有固定空间尺寸小特征图上。

选自arXiv: 1703.01086，’Arbitrary-Oriented Scene Tex

FTSN模型

FTSN（Fused Text Segmentation Networks）模型使用分割网络支持倾斜文本检测。它使用Resnet-101做基础网络，使用了多尺度融合的特征图。标注数据包括文本实例的像素掩码和边框，使用像素预测与边框检测多目标联合训练。

选自arXiv: 1709.03272，’Fused Text Segmentation Netw

基于文本实例间像素级重合度的Mask-NMS，替代了传统基于水平边框间重合度的NMS算法。下图左边子图是传统NMS算法执行结果，中间白色边框被错误地抑制掉了。下图右边子图是Mask-NMS算法执行结果，三个边框都被成功保留下来。

DMPNet模型

DMPNet（Deep Matching Prior Network）中，使用四边形（非矩形）来更紧凑地标注文本区域边界，其训练出的模型对倾斜文本块检测效果更好。

如下图所示，它使用滑动窗口在特征图上获取文本区域候选框，候选框既有正方形的、也有倾斜四边形的。接着，使用基于像素点采样的Monte-Carlo方法，来快速计算四边形候选框与标注框间的面积重合度。然后，计算四个顶点坐标到四边形中心点的距离，将它们与标注值相比计算出目标loss。文章中推荐用Ln loss来取代L1、L2 loss，从而对大小文本框都有较快的训练回归（regress）速度。

选自arXiv:1703.01425，’Deep Matching Prior Network:

EAST模型

EAST（Efficient and Accuracy Scene Text detection pipeline）模型中，首先使用全卷积网络（FCN）生成多尺度融合的特征图，然后在此基础上直接进行像素级的文本块预测。该模型中，支持旋转矩形框、任意四边形两种文本区域标注形式。对应于四边形标注，模型执行时会对特征图中每个像素预测其到四个顶点的坐标差值。对应于旋转矩形框标注，模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角。

根据开源工程中预训练模型的测试，该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许，根据中文数据特点进行针对性训练后，检测效果还有提升空间。

上述过程中，省略了其他模型中常见的区域建议、单词分割、子块合并等步骤，因此该模型的执行速度很快。

选自arXiv: 1704.03155，’EAST: An Efficient and Accur

SegLink模型

SegLink模型的标注数据中，先将每个单词切割为更易检测的有方向的小文字块（segment），然后用邻近连接（link ）将各个小文字块连接成单词。这种方案方便于识别长度变化范围很大的、带方向的单词和文本行，它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。相比于CTPN等文本检测模型，SegLink的图片处理速度快很多。

选自arXiv: 1703.06520，’Detecting Oriented Text in Na

如下图所示，该模型能够同时从6种尺度的特征图中检测小文字块。同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说，位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。

选自arXiv: 1703.06520，’Detecting Oriented Text in Na

PixelLink模型

自然场景图像中一组文字块经常紧挨在一起，通过语义分割方法很难将它们识别开来，所以PixelLink模型尝试用实例分割方法解决这个问题。

该模型的特征提取部分，为VGG16基础上构建的FCN网络。模型执行流程如下图所示。首先，借助于CNN 模块执行两个像素级预测：一个文本二分类预测，一个链接二分类预测。接着，用正链接去连接邻居正文本像素，得到文字块实例分割结果。然后，由分割结果直接就获得文字块边框，而且允许生成倾斜边框。

上述过程中，省掉了其他模型中常见的边框回归步骤，因此训练收敛速度更快些。训练阶段，使用了平衡策略，使得每个文字块在总LOSS中的权值相同。训练过程中，通过预处理增加了各种方向角度的文字块实例。

选自arXiv: 1801.01315，’Detecting Scene Text via Inst

Textboxes/Textboxes++模型

Textboxes是基于SSD框架的图文检测模型，训练方式是端到端的，运行速度也较快。如下图所示，为了适应文字行细长型的特点，候选框的长宽比增加了1,2,3,5,7,10这样初始值。为了适应文本行细长型特点，特征层也用长条形卷积核代替了其他模型中常见的正方形卷积核。为了防止漏检文本行，还在垂直方向增加了候选框数量。为了检测大小不同的字符块，在多个尺度的特征图上并行预测文本框，然后对预测结果做NMS过滤。

选自arXiv: 1611.06779，’TextBoxes: A Fast Text Detect

（Textboxes++是Textboxes的升级版本，目的是增加对倾斜文本的支持。为此，将标注数据改为了旋转矩形框和不规则四边形的格式；对候选框的长宽比例、特征图层卷积核的形状都作了相应调整。

选自arXiv: 1801.02765，’TextBoxes++: A Single-Shot O

WordSup模型

如下图所示，在数学公式图文识别、不规则形变文本行识别等应用中，字符级检测模型是一个关键基础模块。由于字符级自然场景图文标注成本很高、相关公开数据集稀少，导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。WordSup提出了一种弱监督的训练框架，可以文本行、单词级标注数据集上训练出字符级检测模型。

如下图所示，WordSup弱监督训练框架中，两个训练步骤被交替执行：给定当前字符检测模型，并结合单词级标注数据，计算出字符中心点掩码图；给定字符中心点掩码图，有监督地训练字符级检测模型.

选自arXiv: 1708.06720，’WordSup： Exploiting Word Anno

如下图，训练好字符检测器后，可以在数据流水线中加入合适的文本结构分析模块，以输出符合应用场景格式要求的文本内容。该文作者例举了多种文本结构分析模块的实现方式。

文本识别模型的目标是从已分割出的文字区域中识别出文本内容。

CRNN模型

CRNN(Convolutional Recurrent Neural Network）是目前较为流行的图文识别模型，可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层，能够进行端到端的联合训练。它利用BLSTM和CTC部件学习字符图像中的上下文关系，从而有效提升文本识别准确率，使得模型更加鲁棒。预测过程中，前端使用标准的CNN网络提取文本图像的特征，利用BLSTM将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层(CTC rule)进行预测得到文本序列。

选自arXiv: 1507.05717，’An End-to-End Trainable Neura

RARE模型

RARE（Robust text recognizer with Automatic Rectification）模型在识别变形的图像文本时效果很好。如下图所示，模型预测过程中，输入图像首先要被送到一个空间变换网络中做处理，矫正过的图像然后被送入序列识别网络中得到文本预测结果。

如下图所示，空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后，它可以根据输入图像的特征图动态地产生空间变换网格，然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS（thin-plate splines）的空间变换，从而能够比较准确地识别透视变换过的文本、以及弯曲的文本.

选自arXiv: 1603.03915，’Robust Scene Text Recognition

端到端模型

端到端模型的目标是一站式直接从图片中定位和识别出所有文本内容来。

FOTS Rotation-Sensitive Regression

FOTS（Fast Oriented Text Spotting）是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层，既节省了计算时间，也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域（RoIRotate）, 可以从卷积特征图中产生出定向的文本区域，从而支持倾斜文本的识别.

选自arXiv: 1801.01671，’FOTS: Fast Oriented Text Spot

STN-OCR模型

STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络（STN）来对原始输入图像进行仿射（affine）变换。利用这个空间变换网络，可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作，从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法，只需要提供文本内容标注，而不要求文本定位信息。作者也提到，如果从头开始训练则网络收敛速度较慢，因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。

选自arXiv: 1707.08831，’STN-OCR: A single Neural Netw

训练数据集

本章将列举可用于文本检测和识别领域模型训练的一些大型公开数据集，不涉及仅用于模型fine-tune任务的小型数据集。

Chinese Text in the Wild(CTW)

该数据集包含32285张图像，1018402个中文字符(来自于腾讯街景), 包含平面文本，凸起文本，城市文本，农村文本，低亮度文本，远处文本，部分遮挡文本。图像大小2048*2048，数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像，812872个汉字)，测试集(3269张图像，103519个汉字)，验证集(3129张图像，103519个汉字)。

文献链接：https://arxiv.org/pdf/1803.00085.pdf 
数据集下载地址：https://ctwdataset.github.io/

Reading Chinese Text in the Wild(RCTW-17)

该数据集包含12263张图像，训练集8034张，测试集4229张，共11.4GB。大部分图像由手机相机拍摄，含有少量的屏幕截图，图像中包含中文文本与少量英文文本。图像分辨率大小不等。

下载地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
文献：http://arxiv.org/pdf/1708.09585v2

ICPR MWI 2018 挑战赛

大赛提供20000张图像作为数据集，其中50%作为训练集，50%作为测试集。主要由合成图像，产品描述，网络广告构成。该数据集数据量充分，中英文混合，涵盖数十种字体，字体大小不一，多种版式，背景复杂。文件大小为2GB。

下载地址：
https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe

Total-Text

该数据集共1555张图像，11459文本行，包含水平文本，倾斜文本，弯曲文本。文件大小441MB。大部分为英文文本，少量中文文本。训练集：1255张测试集：300

下载地址：http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
文献：http:// arxiv.org/pdf/1710.10400v

Google FSNS(谷歌街景文本数据集)

该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志，每一张包含同一街道标志牌的不同视角，图像大小为600*150，训练集1044868张，验证集16150张，测试集20404张。

下载地址：http://rrc.cvc.uab.es/?ch=6&com=downloads
文献：http:// arxiv.org/pdf/1702.03970v1

替换高清大图

COCO-TEXT

该数据集，包括63686幅图像，173589个文本实例，包括手写版和打印版，清晰版和非清晰版。文件大小12.58GB，训练集：43686张，测试集：10000张，验证集：10000张

文献: http://arxiv.org/pdf/1601.07140v2
下载地址：https://vision.cornell.edu/se3/coco-text-2/

Synthetic Data for Text Localisation

在复杂背景下人工合成的自然场景文本数据。包含858750张图像，共7266866个单词实例，28971487个字符，文件大小为41GB。该合成算法，不需要人工标注就可知道文字的label信息和位置信息，可得到大量自然场景文本标注数据。

下载地址：http://www.robots.ox.ac.uk/~vgg/data/scenetext/
文献：http://www.robots.ox.ac.uk/~ankush/textloc.pdf
Code: https://github.com/ankush-me/SynthText (英文版)
Code https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)

Synthetic Word Dataset

合成文本识别数据集，包含9百万张图像，涵盖了9万个英语单词。文件大小为10GB

下载地址：http://www.robots.ox.ac.uk/~vgg/data/text/

Caffe-ocr中文合成数据

数据利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，共360万张图片，图像分辨率为280x32，涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB

下载地址：https://pan.baidu.com/s/1dFda6R3

参考文献

1. “光学字符识别技术：让电脑像人一样阅读”, 新浪微博, 霍强

http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

2. “Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038，Jonathan Long, Evan Shelhamer, Trevor Darrell

https://arxiv.org/pdf/1411.4038

3. “Spatial Transformer Networks”，arXiv:1506.02025，Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

https://arxiv.org/pdf/1506.02025

4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”，arXiv:1506.01497，Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

https://arxiv.org/pdf/1506.01497

5.“SSD: Single Shot MultiBox Detector”，arxiv:1512.02325，Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

https://arxiv.org/pdf/1512.02325

6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”，arXiv:1609.03605，Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

https://arxiv.org/pdf/1609.03605

7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”，arXiv:1703.01086，Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

https://arxiv.org/pdf/1703.01086

8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”，arXiv:1709.03272，Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

https://arxiv.org/pdf/1709.03272

9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”，arXiv:1703.01425，Yuliang Liu, Lianwen Jin

https://arxiv.org/pdf/1703.01425

10.“EAST: An Efficient and Accurate Scene Text Detector”，arXiv:1704.03155，Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

https://arxiv.org/pdf/1704.03155

11.“Detecting Oriented Text in Natural Images by Linking Segments”，arXiv:1703.06520，Baoguang Shi, Xiang Bai, Serge Belongie

https://arxiv.org/pdf/1703.06520

12. “Detecting Scene Text via Instance Segmentation”，arXiv:1801.01315，Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

https://arxiv.org/pdf/1801.01315

13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”，arXiv:1611.06779，Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

https://arxiv.org/pdf/1611.06779

14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”，arXiv:1801.02765，Minghui Liao, Baoguang Shi, Xiang Bai

https://arxiv.org/pdf/1801.02765

15.“WordSup： Exploiting Word Annotations for Character based Text Detection”，arXiv:1708.06720，Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

https://arxiv.org/pdf/1708.06720

16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”，arXiv:1507.05717，Baoguang Shi, Xiang Bai, Cong Yao

https://arxiv.org/pdf/1507.05717

17. “Robust Scene Text Recognition with Automatic Rectification”，arXiv:1603.03915，Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

https://arxiv.org/pdf/1603.03915

18.“FOTS: Fast Oriented Text Spotting with a Unified Network”，arXiv:1801.01671，Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

https://arxiv.org/pdf/1801.01671

19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”，arXiv:1707.08831，Christian Bartz, Haojin Yang, Christoph Meinel

https://arxiv.org/pdf/1707.08831

20.“Chinese Text in the Wild”，arXiv:1803.00085，Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

https://arxiv.org/pdf/1803.00085.pdf

21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”，arXiv:1708.09585，Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

http://arxiv.org/pdf/1708.09585

22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”，arXiv:1710.10400，Chee Kheng Chng, Chee Seng Chan

https://arxiv.org/pdf/1710.10400

23.“End-to-End Interpretation of the French Street Name Signs Dataset”，arXiv:1702.03970，Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

https://arxiv.org/pdf/1702.03970

24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”，arXiv:1601.07140，Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

http://arxiv.org/pdf/1601.07140

25. “Synthetic Data for Text Localisation in Natural Images”，arXiv:1604.06646， Ankush Gupta， Andrea Vedaldi， Andrew Zisserman

https://arxiv.org/pdf/1604.06646

你可能感兴趣的:(机器视觉)

机器视觉_图像算法（六）——形状矩(Hu) 智能之心 #机器视觉_图像算法形状矩 opencv
图像形状矩：一个从一幅数字图形中计算出来的矩集，通常描述了该图像形状的全局特征，并提供了大量的关于该图像不同类型的几何特性信息，比如大小、位置、方向及形状等。一阶矩与形状有关，二阶矩显示曲线围绕直线平均值的扩展程度，三阶矩则是关于平均值的对称性的测量。由二阶矩和三阶矩可以导出一组共7个不变矩。而不变矩是图像的统计特性，满足平移、伸缩、旋转均不变的不变性，在图像识别领域得到了广泛的应用。一般由mom
【C# + HALCON 机器视觉】机器视觉在汽车内饰板塑料部件装配中的实战应用 AI_DL_CODE 机器视觉：C#+HALCON c#HALCON 机器视觉汽车零部件装配内饰装配形状匹配人机交互
摘要：本文聚焦C#与HALCON技术在汽车内饰板塑料部件自动化装配领域的深度应用，详细阐述基于形状匹配算法的视觉定位技术、C#开发的人机交互界面及设备通信集成方案。通过完整的实操流程和代码示例，展示如何解决传统人工装配精度不稳定的问题，实现装配效率提升35%、良品率从92%提升至98%的显著成效，为汽车制造行业自动化升级提供技术参考。文章目录【C#+HALCON机器视觉】机器视觉在汽车内饰板塑料部
LabVIEW工业指针仪表检测 LabVIEW开发 LabVIEW开发案例 labview 深度学习 LabVIEW开发案例
用LabVIEW融合深度学习与机器视觉技术，构建适用于复杂工业环境的多类指针式仪表自动检测系统。通过集成品牌硬件与优化算法架构，实现仪表实时定位、图像增强、示数读取全流程自动化，解决传统人工巡检效率低、误差大的问题，满足煤矿、变电站等场景的智能化监测需求。应用场景工业设备监控：煤矿通风设备压力表、变电站电压电流表、集气站流量仪表等圆形指针式设备的实时状态监测。恶劣环境检测：适用于高温、高压、粉尘或
2025——》机器视觉之opencv/图片和视频的加载和显示基本知识详解
下面我将详细介绍OpenCV中图片和视频加载与显示的基本知识。一、OpenCV简介OpenCV(OpenSourceComputerVisionLibrary)是一个广泛用于计算机视觉任务的开源库，支持多种编程语言（如Python、C++），提供了丰富的图像处理和计算机视觉算法。二、图片操作基础1.图片的加载pythonimportcv2#加载图片image=cv2.imread('example
机器视觉工程师如何进行图像去噪和增强 zhangzhechun_02 运维深度学习人工智能机器人自动化
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析
机器视觉工程师如何进行条码与二维码识别优化 zhangzhechun_02 自动化运维深度学习人工智能机器人
python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位C#视觉应用开发问题系列c#串口应用开发问题系列microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析
使用Halcon进行图像预处理的策略 AI_Guru人工智能计算机视觉图像处理人工智能
图像预处理是机器视觉系统中的一个关键步骤，它有助于提高图像质量，从而使得后续的图像分析和特征提取更加准确。在Halcon中，图像预处理通常包括滤波、对比度增强、归一化、边缘增强等操作。以下是一些使用Halcon进行图像预处理的策略，以及相应的示例代码。图像预处理策略滤波：去除图像噪声，如高斯滤波、中值滤波等。对比度增强：提高图像的对比度，如直方图均衡化、对比度限制自适应直方图均衡化（CLAHE）。
Halcon 图像预处理算子、。纯牛奶最单纯*￣▽￣* 计算机视觉人工智能图像处理
在机器视觉领域，图像的预处理算法十分重要。对于一些成像质量较差，受噪声影响较大的场景中，为保证视觉测量，定位，检测效果的稳定性。、往往第一步就是对图像做处理，这里对常用的预处理算法做总结。*腐蚀图像增加暗部，减少亮部gray_erosion_rect(Image,ImageMin,11,11)*膨胀图像增加增加，减少暗部gray_dilation_rect(Image,ImageMax,11,11
图像基础算法学习笔记 jerry201108 视觉基础知识学习笔记计算机视觉
目录概要一、图像采集二、图像标注四、图像几何变换五、图像边缘检测Sobel算子Scharrt算子Laplacian算子Canny边缘检测六、形态学转换十三、图像去噪概要参考书籍：《机器视觉与人工智能应用开发技术》廖建尚，钟君柳出版时间：2024-02-01图像采集图像标注：绘制直线、矩阵、圆形、椭圆和多边形图像灰度转换：灰度化、二值化等图像转换方法图像几何变换：图像旋转、图像镜像、图像缩放、图像透
探索大规模实例分割新天地 —— LVIS API深度解析与应用推广芮奕滢Kirby
探索大规模实例分割新天地——LVISAPI深度解析与应用推广去发现同类优质开源项目:https://gitcode.com/在机器视觉领域，数据集的丰富性和多样性是推动技术进步的关键。LVIS（LargeVocabularyInstanceSegmentation），以其独特的名字和深远的意义，在实例分割界掀起了一场革新风暴。LVIS，这个名字发音为“el-vis”，不仅仅是一个数据集，更是一套强
受大脑启发的人工智能在令人震惊的视觉突破中学会像人类一样看东西大咖分享课人工智能
一种名为Lp-Convolution的新型受大脑启发的AI方法通过动态重塑CNN过滤器来增强图像识别能力，将生物现实性与改进的性能和效率相结合。IBS-Yonsei研究团队在ICLR2025上介绍了一种新颖的Lp-Convolution方法。延世大学基础科学研究所(IBS)和马克斯·普朗克研究所的研究团队开发了一种新的人工智能(AI)技术，使机器视觉更接近人脑处理视觉信息的方式。这种被称为Lp-C
机器视觉开发-使用yolo训练和验证自己的模型派葛穆 YOLO 深度学习机器学习
创建一个文件夹，包含如下子目录，images存放训练（train）和验证图片（val），一般是8:2的数量比例，labels存放对应的yolo格式内容的标注文件（与图片同名.txt）。创建一个.yaml格式的配置文件，如Goods.yamlpath:D:\Desktop\Python文件\仿真单件分离系统\Goods#数据集根路径train:images/train#训练集路径val:images
【MATLAB源码】机器视觉与图像识别技术(4)---模式识别与视觉计数 §ꦿCFོ༉ 机器视觉与图像识别技术计算机视觉算法人工智能图像处理 matlab 深度学习
系列文章目录第一篇文章：【MATLAB源码】机器视觉与图像识别技术—视觉系统的构成(视频与图像格式转换代码及软件下载)第二篇文章：【MATLAB源码】机器视觉与图像识别技术(2)—图像分割基础第三篇文章：【MATLAB源码】机器视觉与图像识别技术(2)续—图像分割算法第四篇文章：【MATLAB源码】机器视觉与图像识别技术(3)—数字形态学处理以及图像特征点提取模式识别与视觉计数
基于机器视觉的水果分拣系统-分拣终端设计(源码+万字报告+讲解) 炳烛之明科技人工智能
目录摘要1Abstract1第1章绪论21.1课题研究背景与意义21.2水果分拣系统研究现状31.3水果分拣系统应用前景4第2章系统设计方案42.1水果分拣终端总体框图42.2系统研究内容及设计要求52.3方案整体设计5第3章系统硬件电路设计63.1总体硬件框图63.2主控芯片及其最小系统73.3直流电机及其驱动73.4机械臂设计83.5WiFi模块8第4章系统软件设计84.1总体软件设计框图84
HALCON 深度学习训练 3D 图像的几种方式优缺点 LeonDL168 Halcon 深度学习 3d 人工智能 HALCON训练3D图像深度学习训练3D图像 HALCON python
HALCON深度学习训练3D图像的几种方式优缺点**在计算机视觉和工业检测等领域，3D图像数据的处理和分析变得越来越重要，HALCON作为一款强大的机器视觉软件，提供了多种深度学习训练3D图像的方式。每种方式都有其独特的设计思路和应用场景，了解它们的优缺点有助于根据具体需求选择最合适的训练方法。基于体素化的训练方式优点数据结构规整：体素化将3D图像转换为类似3D网格的数据结构，这种规整的数据形式能
树莓派摄像头使用（rpicam-apps）城城000 数码相机
摄像头简介树莓派摄像头是一种用于树莓派的高质量摄像头模块，可用于拍摄照片和录制视频。它支持多种分辨率和帧率选项，具有自动曝光和自动白平衡功能，可通过树莓派的GPIO接口连接和控制。树莓派摄像头模块广泛应用于树莓派项目中，如视频监控、机器视觉、无人机和智能家居等领域。硬件连接把树莓派摄像头连接到树莓派中间那里标有camera的接口（注意不是后面的显示器接口）检查是否连接成功打开终端输入以下命令rpi
使用MATLAB和Simulink来设计并仿真一个智能家居基于机器视觉的安全监控系统 amy_mhd matlab 智能家居开发语言
目录一、准备工作二、步骤详解第一步：创建Simulink模型第二步：构建图像采集模块第三步：实现图像预处理第四步：设计背景建模与差分第五步：实现特征提取与行为识别第六步：设计响应机制第七步：搭建用户界面（可选）第八步：运行仿真并分析结果注意事项智能家居中基于机器视觉的安全监控系统通过摄像头捕捉图像，并利用图像处理和机器学习算法来分析这些图像，以实现诸如入侵检测、异常行为识别等功能。这种系统可以极大
深入剖析ZYNQ Linux动态PL配置：xdevcfg驱动创新实践指南芯作者 D1：ZYNQ设计 fpga开发
一、ZYNQ动态重配置技术解析1.1可编程逻辑的革命性价值XilinxZYNQ系列SoC的划时代设计将ARM处理系统（PS）与FPGA可编程逻辑（PL）深度融合，创造出独特的异构计算架构。传统FPGA开发模式中，比特流烧写需要停机操作，而动态重配置技术彻底打破了这一限制，使得：工业设备可在线切换通信协议（Modbus/Profinet/EtherCAT）机器视觉系统动态加载不同图像处理流水线5G基
老司机机器视觉工程师也会翻车，机器视觉2D高精度定位引导，机器视觉2D高精度测量为什么高手都用黑白相机（工业相机，智能相机）视觉人机器视觉杂说数码相机
机器视觉定位引导领域，专业工程师更倾向于选择黑白工业相机而非彩色相机，这一选择基于其在精度、效率和稳定性上的显著优势。以下是核心原因的分析：对比度强化与细节凸显灰度信息更纯粹：黑白相机仅捕捉物体表面的明暗变化（灰度值），消除了色彩信息对边缘轮廓的干扰。例如，在金属零件定位中，划痕、边缘或标记在黑白图像中会因灰度差异被显著放大，更易被算法识别。抗光照干扰性强：工业现场常存在不均匀光照或反光（如金属、
基于机器视觉的工作分拣控制系统(源码+万字报告+部署讲解等) 炳烛之明科技人工智能
第1章绪论31.1课题来源31.2课题研究的目的和意义31.3国内外研究现状41.3.1国内研究现状41.3.2国外研究现状51.3.3国内外市场现状对比5第二章工件机器人分拣系统62.1工件机器人分拣系统的构成62.2视觉引导技术的介绍7第三章系统硬件的选择及系统硬件电路73.1系统硬件的选择73.1.1工业相机的选择73.1.2光源的选择83.1.3分拣机器人的选择93.1.4车轮驱动方式的选
毕业设计项目 LSTM股价预测 DD项目分享家毕业设计 python 毕设
0简介今天学长向大家介绍一个机器视觉的毕设项目毕业设计项目分享LSTM股价预测项目运行效果：毕业设计lstm股价预测项目分享:见文末!1LSTM神经网络长短期记忆(LSTM)神经网络属于循环神经网络(RNN)的一种，特别适合处理和预测与时间序列相关的重要事件。以下面的句子作为一个上下文推测的例子：“我从小在法国长大，我会说一口流利的？？”由于同一句话前面提到”法国“这个国家，且后面提到“说”这个动
具身智能与客观世界的交互 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能领域，具身智能（EmbodiedIntelligence）是指通过模拟人类的生理、心理和行为特性，构建能够与客观世界直接交互的智能系统。与传统基于符号逻辑的智能不同，具身智能系统强调感知、运动和环境交互，旨在实现更加全面、直观的智能理解与决策。近年来，随着传感器技术、机器视觉、机器人技术的发展，具身智能领域取得了显著进展。具身智能系统不仅在工业自动化、服务机器人、虚拟现实等应
LabVIEW 中不同 VI 间图像传递方法解析 LabVIEW开发 LabVIEW知识 LabVIEW知识
在LabVIEW开发过程中，经常会遇到需要在不同VI之间传递图像数据的情况。比如在一些机器视觉检测系统中，子VI负责图像采集，主程序需要实时显示采集到的图像。同时，在实践中我们发现，采用共享变量或队列等常规数据传递方式来传递图像时，会出现图像闪烁问题，而在单个VI内显示图像却不会有此现象。那么，如何高效且稳定地在不同VI间传递图像呢？常规数据传递方式的局限性共享变量共享变量在LabVIEW中常用于
基于亚博K210开发板——物体检测测试追兮兮 K210 K210
开发板亚博K210开发板实验目的本次测试主要学习K210如何物体检测，然后通过LCD显示屏实时框出检测物体然后以不同颜色标记名称。实验元件OV2640摄像头/OV9655摄像头/GC2145摄像头、LCD显示屏硬件连接K210开发板出厂默认已经安装好摄像头和显示器，只需要使用Type-C数据线连接K210开发板与电脑即可。实验原理KendryteK210具备机器视觉能力，是零门槛机器视觉嵌入式解决
霍夫圆检测原理及使用案例（带调参过程）乐平要加油啊 OpenCV 计算机视觉 opencv 人工智能
在工业检测和机器视觉等领域，传统图像处理技术依然是不可或缺的重要方法。特别是圆形目标的检测和定位，传统图像处理技术的能够提供高效且精确的解决方案。本文将详细探讨如何使Python编程语言和OpenCV库，结合霍夫圆算法实现圆形目标的检测。此外，本文提供了调参的具体过程。觉得可以的话，点赞收藏哈。本人励志成为一名大博主，你的支持就是我最大的动力！！目录1霍夫圆检测原理1.1检测原理1.2函数参数解释
从机器视觉角度进行公路路面病害检测 51camera 公路路面缺陷检测路面病害检测工业相机
从机器视觉检测角度讨论公路路面病害检测，核心在于通过图像采集、处理与分析技术实现病害的自动化识别与量化。图像采集传感器选择：常用高分辨率工业相机、多光谱相机或
FPGA高速接口 mipi lvds cameralink hdml 千兆网 sdi 海涛高软 fpga开发
mipi:https://blog.csdn.net/SDJ_success/article/details/146541776cameralinkCameraLink协议CameraLink协议是一种专门针对机器视觉应用领域的串行通信协议，它使用低压差分信号(LVDS)进行数据的传输和通信。CameraLink标准是在ChannelLink标准的基础上多加了6对差分信号线，其中4对用于并行传输相
python opencv 三维重建_【python+opencv实现基于图片序列的三维重建】 - #1 weixin_39778815 python opencv 三维重建
2015年09月05-三维重建一直是机器视觉研究的热门方向，比如，基于双目视觉，单目视觉，多视几何，光场三维重建等等。每一种方法都有其有点和局限性。单目视觉需要拍摄多幅图像，并且在拍摄过程中需要不断的调整相机的聚焦位置，最后采取一定的融合方法来找到每幅图像中的清晰像素点，从而得到深度信息。这种方法也被称为焦点堆栈法。在实际测试多个场景后，发现二级梯度评价函数和拉普拉斯评价函数融合效果较好。程201
深入解析 Cognex VisionPro 的 CogDistanceSegmentSegmentTool 东城十三计算机视觉
深入解析CognexVisionPro的CogDistanceSegmentSegmentTool在机器视觉和图像处理领域，测量两条线段之间的距离是识别和分析图像中目标物体的重要方法之一。CognexVisionPro提供了强大的工具集，其中CogDistanceSegmentSegmentTool专门用于检测和测量两条线段之间的距离。本文将深入解析CogDistanceSegmentSegmen
C+VisionPro连接相机取像韦雯吟
C#+VisionPro连接相机取像【下载地址】CVisionPro连接相机取像本仓库提供了一个基于C#编程语言的示例程序，旨在展示如何利用康耐视（Cognex）的VisionProSDK与工业相机进行集成。此Demo应用详细演示了通过VisionPro控件实现相机连接、实时图像获取以及调整相机参数（如曝光、亮度、对比度等）的功能。这对于希望在C#应用程序中集成机器视觉功能的开发者来说，是一个非常
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache