算法学习者

自然场景文本检测识别技术综述

原文链接： https://zhuanlan.zhihu.com/p/38655369?utm_source=qq&utm_medium=social

本文及其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造，自2019年1月出版以来已重印3次。

书的购买链接
书的勘误，优化，源代码资源

番外
青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么？
白蛇: 白纸黑字的扫描文档识别技术已经很成熟，而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。
青蛇: 文本检测模型CTPN中为什么选用VGG16作基础网络?
白蛇: CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基础网络。如果今年实施文本检测, 可以试试Resnet、FCN、Densenet等后起之秀作基础网络，或许有惊喜。

摘要
本文介绍图像文本识别（OCR）领域的最新技术进展。首先介绍应用背景，包括面临的技术挑战、典型应用场景、系统实施框架等。接着介绍搭建图文识别模型过程中经常被引用到的多种特征提取基础网络、物体检测网络框架，以及它们被应用到图文识别任务中所面临的场景适配问题。然后介绍最近三年来出现的各种文本边框检测模型、文字内容识别模型、端到端图文识别模型。最后介绍图文识别领域的大型公开数据集。

应用概述

OCR（Optical Character Recognition, 光学字符识别）传统上指对输入扫描文档图像进行分析处理，识别出图像中文字信息。场景文字识别（Scene Text Recognition，STR）指识别自然场景图片中的文字信息。自然场景图像中的文字识别，其难度远大于扫描文档图像中的文字识别，因为它的文字展现形式极其丰富：

·允许多种语言文本混合，字符可以有不同的大小、字体、颜色、亮度、对比度等。
·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。
·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理，比如沙地、草丛、栅栏、砖墙等。

（本图摘自新浪微博《光学字符识别技术：让电脑像人一样阅读》）

也有人用OCR技术泛指所有图像文字检测和识别技术，包括传统OCR技术与场景文字识别技术。这是因为，场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。

图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

已经有不少服务商在提供图像文字检测和识别服务，这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业，也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务，也可以使用客户提供的数据集训练定制化模型（如票据识别模型），以及提供定制化AI服务系统集成等。

如下图所示，传统技术解决方案中，是先分别训练文字检测和文本识别两个模型，然后在服务实施阶段将这两个模型串联到数据流水线中组成图文识别系统。

如下图所示，最近流行的技术解决方案中，是用一个多目标网络直接训练出一个端到端的模型。在训练阶段，该模型的输入是训练图像及图中文本坐标、文本内容，模型优化目标是输出端边框坐标预测误差与文本内容预测误差的加权和。在服务实施阶段，原始图片流过该模型直接输出预测文本信息。相比于传统方案，该方案中模型训练效率更高、服务运营阶段资源开销更少。

文本检测和识别技术处于一个学科交叉点，其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量，又需要借助自然语言处理技术来解码图像特征向量为文字结果。

模型基础

从公开论文中可以看到，起源于图像分类、检测、语义分割等视觉处理任务的各个基础网络（backbone network），纷纷被征用来提取图像中文字区域的特征向量。同时，起源于物体检测、语义分割任务的多个网络框架，也被改造后用于提升图文识别任务中的准确率和执行速度。本章将简单温习一下这些基础网络、网络框架的实现原理，并介绍图文识别任务中应用它们时所面临的各种场景适配问题。

基础网络

图文识别任务中充当特征提取模块的基础网络，可以来源于通用场景的图像分类模型。例如，VGGNet，ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。

图文识别任务中的基础网络，也可以来源于特定场景的专用网络模型。例如，擅长提取图像细节特征的FCN网络，擅长做图形矫正的STN网络。

由于大家对通用网络模型已经很熟悉，所以本节只简单介绍上述专用网络模型。

FCN网络

全卷积网络（FCN,fully convolutional network），是去除了全连接(fc)层的基础网络，最初是用于实现语义分割任务。FC的优势在于利用反卷积（deconvolution）、上池化（unpooling）等上采样（upsampling）操作，将特征矩阵恢复到接近原图尺寸，然后对每一个位置上的像素做类别预测，从而能识别出更清晰的物体边界。基于FCN的检测网络，不再经过候选区域回归出物体边框, 而是根据高分辨率的特征图直接预测物体边框。因为不需要像Faster-RCNN那样在训练前定义好候选框长宽比例，FCN在预测不规则物体边界时更加鲁棒。由于FCN网络最后一层特征图的像素分辨率较高，而图文识别任务中需要依赖清晰的文字笔画来区分不同字符（特别是汉字），所以FCN网络很适合用来提取文本特征。当FCN被用于图文识别任务时，最后一层特征图中每个像素将被分成文字行（前景）和非文字行（背景）两个类别。

（选自arXiv:1411.4038，’ Fully Convolutional Networks for Semantic Segmentation’）

STN网络

空间变换网络（STN，Spatial Transformer Networks）的作用是对输入特征图进行空间位置矫正得到输出特征图，这个矫正过程是可以进行梯度传导的，从而能够支持端到端的模型训练。

如下图所示，STN网络由定位网络（Localization Network），网格生成器（Grid generator），采样器（Sampler）共3个部分组成。定位网络根据原始特征图U计算出一套控制参数，网格生成器这套控制参数产生采样网格（sampling grid），采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。

空间变换的控制参数是根据原始特征图U动态生成的，生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重（weights）矩阵中。

（选自arXiv: 1506.02025，’Spatial Transformer Networks’）

检测网络框架

Faster RCNN作为一个检测网络框架，其目标是寻找紧凑包围被检测对象的边框（BBOX，Bounding Box）。如下图所示，它在Fast RCNN检测框架基础上引入区域建议网络（RPN，Region Proposal Network），来快速产生与目标物体长宽比例接近的多个候选区域参考框（anchor）；它通过ROI（Region of Interest） Pooling层为多种尺寸参考框产生出归一化固定尺寸的区域特征；它利用共享的CNN卷积网络同时向上述RPN网络和ROI Pooling层输入特征映射（Feature Maps），从而减少卷积层参数量和计算量。训练过程中使用到了多目标损失函数，包括RPN网络、ROI Pooling层的边框分类loss和坐标回归loss。通过这些loss的梯度反向传播，能够调节候选框的坐标、并增大它与标注对象边框的重叠度/交并比(IOU，Intersection over Union）。RPN网格生成的候选框初始值有固定位置以及长宽比例。如果候选框初始长宽比例设置得与图像中物体形状差别很大，就很难通过回归找到一个紧凑包围它的边框。

（摘自arXiv:1506.01497，’Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks’）

SSD（Single Shot MultiBox Detector），是2016年提出的一种全卷积目标检测算法，截止到目前仍是主要的目标检测框架之一，相比Faster RCNN有着明显的速度优势。如下图所示，SSD是一种one stage算法，直接预测被检测对象的边框和得分。检测过程中，SSD算法利用多尺度思想进行检测，在不同尺度的特征图(feature maps)上产生与目标物体长宽比例接近的多个默认框(Default boxes)，进行回归与分类。最后利用非极大值抑制(Non-maximum suppression)得到最终的检测结果。训练过程中，SSD采用Hard negative mining策略进行训练，使正负样本比例保持为1：3，同时使用多种数据增广(Data augmentation)方式进行训练，提高模型性能。

(摘自arxiv: 1512.02325， “SSD: Single Shot MultiBox Detector”)

文本检测模型

文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。

但是，视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果并不理想，主要原因如下：

·相比于常规物体，文字行长度、长宽比例变化范围很大。
·文本行是有方向性的。常规物体边框BBox的四元组描述方式信息量不充足。
·自然场景中某些物体局部图像与字母形状相似，如果不参考图像全局信息将有误报。
·有些艺术字体使用了弯曲的文本行，而手写字体变化模式也很多。
·由于丰富的背景图像干扰，手工设计特征在自然场景文本识别任务中不够鲁棒。

针对上述问题根因，近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制（NMS）、半监督学习等角度对常规物体检测方法进行改造，极大提升了自然场景图像中文本检测的准确率。例如：

·CTPN方案中，用BLSTM模块提取字符所在图像上下文特征，以提高文本块识别精度。
·RRPN等方案中，文本框标注采用BBOX +方向角度值的形式，模型中产生出可旋转的文字区域候选框，并在边框回归计算过程中找到待测文本行的倾斜角度。
·DMPNet等方案中，使用四边形（非矩形）标注文本框，来更紧凑的包围文本区域。
·SegLink  将单词切割为更易检测的小文字块，再预测邻近连接将小文字块连成词。
·TextBoxes等方案中，调整了文字区域参考框的长宽比例，并将特征层卷积核调整为长方形，从而更适合检测出细长型的文本行。
·FTSN方案中，作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
·WordSup方案中，采用半监督学习策略，用单词级标注数据来训练字符级文本检测模型。

下面用近年来出现的多个模型案例，介绍如何应用上述各方法提升图像文本检测的效果。

CTPN模型

CTPN是目前流传最广、影响最大的开源文本检测模型，可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence，而不是一般物体检测中单个独立的目标。同一文本行上各个字符图像间可以互为上下文，在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律，可以使得预测阶段有效提升文本块预测准确率。CTPN模型的图像预测流程中，前端使用当时流行的VGG16做基础网络来提取各字符的局部图像特征，中间使用BLSTM层提取字符序列上下文特征，然后通过FC全连接层，末端经过预测分支输出各个文字块的坐标值和分类结果概率值。在数据后处理阶段，将合并相邻的小文字块为文本行。

（选自arXiv: 1609.03605，’Detecting Text in Natural Image with Connectionist Text Proposal Network’）

RRPN模型

基于旋转区域候选网络（RRPN, Rotation Region Proposal Networks）的方案，将旋转因素并入经典区域候选网络（如Faster RCNN）。这种方案中，一个文本区域的ground truth被表示为具有5元组(x,y,h,w,θ)的旋转边框, 坐标(x,y)表示边框的几何中心, 高度h设定为边框的短边，宽度w为长边，方向是长边的方向。训练时，首先生成含有文本方向角的倾斜候选框，然后在边框回归过程中学习文本方向角。

（选自arXiv: 1703.01086，’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’）

RRPN中方案中提出了旋转感兴趣区域（RRoI，Rotation Region-of-Interest）池化层，将任意方向的区域建议先划分成子区域，然后对这些子区域分别做max pooling、并将结果投影到具有固定空间尺寸小特征图上。

（选自arXiv: 1703.01086，’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’）

FTSN模型

FTSN（Fused Text Segmentation Networks）模型使用分割网络支持倾斜文本检测。它使用Resnet-101做基础网络，使用了多尺度融合的特征图。标注数据包括文本实例的像素掩码和边框，使用像素预测与边框检测多目标联合训练。

（选自arXiv: 1709.03272，’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’）

基于文本实例间像素级重合度的Mask-NMS，替代了传统基于水平边框间重合度的NMS算法。下图左边子图是传统NMS算法执行结果，中间白色边框被错误地抑制掉了。下图右边子图是Mask-NMS算法执行结果，三个边框都被成功保留下来。

（选自arXiv: 1709.03272，’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’）

DMPNet模型

DMPNet（Deep Matching Prior Network）中，使用四边形（非矩形）来更紧凑地标注文本区域边界，其训练出的模型对倾斜文本块检测效果更好。

如下图所示，它使用滑动窗口在特征图上获取文本区域候选框，候选框既有正方形的、也有倾斜四边形的。接着，使用基于像素点采样的Monte-Carlo方法，来快速计算四边形候选框与标注框间的面积重合度。然后，计算四个顶点坐标到四边形中心点的距离，将它们与标注值相比计算出目标loss。文章中推荐用Ln loss来取代L1、L2 loss，从而对大小文本框都有较快的训练回归（regress）速度。

（选自arXiv:1703.01425，’Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection’）

EAST模型

EAST（Efficient and Accuracy Scene Text detection pipeline）模型中，首先使用全卷积网络（FCN）生成多尺度融合的特征图，然后在此基础上直接进行像素级的文本块预测。该模型中，支持旋转矩形框、任意四边形两种文本区域标注形式。对应于四边形标注，模型执行时会对特征图中每个像素预测其到四个顶点的坐标差值。对应于旋转矩形框标注，模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角。

根据开源工程中预训练模型的测试，该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许，根据中文数据特点进行针对性训练后，检测效果还有提升空间。

上述过程中，省略了其他模型中常见的区域建议、单词分割、子块合并等步骤，因此该模型的执行速度很快。

（选自arXiv: 1704.03155，’EAST: An Efficient and Accurate Scene Text Detector’）

SegLink模型

SegLink模型的标注数据中，先将每个单词切割为更易检测的有方向的小文字块（segment），然后用邻近连接（link ）将各个小文字块连接成单词。这种方案方便于识别长度变化范围很大的、带方向的单词和文本行，它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。相比于CTPN等文本检测模型，SegLink的图片处理速度快很多。

（选自arXiv: 1703.06520，’Detecting Oriented Text in Natural Images by Linking Segments’）

如下图所示，该模型能够同时从6种尺度的特征图中检测小文字块。同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说，位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。

（选自arXiv: 1703.06520，’Detecting Oriented Text in Natural Images by Linking Segments’）

PixelLink模型

自然场景图像中一组文字块经常紧挨在一起，通过语义分割方法很难将它们识别开来，所以PixelLink模型尝试用实例分割方法解决这个问题。

该模型的特征提取部分，为VGG16基础上构建的FCN网络。模型执行流程如下图所示。首先，借助于CNN 模块执行两个像素级预测：一个文本二分类预测，一个链接二分类预测。接着，用正链接去连接邻居正文本像素，得到文字块实例分割结果。然后，由分割结果直接就获得文字块边框，而且允许生成倾斜边框。

上述过程中，省掉了其他模型中常见的边框回归步骤，因此训练收敛速度更快些。训练阶段，使用了平衡策略，使得每个文字块在总LOSS中的权值相同。训练过程中，通过预处理增加了各种方向角度的文字块实例。

（选自arXiv: 1801.01315，’Detecting Scene Text via Instance Segmentation’）

Textboxes/Textboxes++模型

Textboxes是基于SSD框架的图文检测模型，训练方式是端到端的，运行速度也较快。如下图所示，为了适应文字行细长型的特点，候选框的长宽比增加了1,2,3,5,7,10这样初始值。为了适应文本行细长型特点，特征层也用长条形卷积核代替了其他模型中常见的正方形卷积核。为了防止漏检文本行，还在垂直方向增加了候选框数量。为了检测大小不同的字符块，在多个尺度的特征图上并行预测文本框，然后对预测结果做NMS过滤。

（选自arXiv: 1611.06779，’TextBoxes: A Fast Text Detector with a Single Deep Neural Network’）

Textboxes++是Textboxes的升级版本，目的是增加对倾斜文本的支持。为此，将标注数据改为了旋转矩形框和不规则四边形的格式；对候选框的长宽比例、特征图层卷积核的形状都作了相应调整。

（选自arXiv: 1801.02765，’TextBoxes++: A Single-Shot Oriented Scene Text Detector’）

WordSup模型

如下图所示，在数学公式图文识别、不规则形变文本行识别等应用中，字符级检测模型是一个关键基础模块。由于字符级自然场景图文标注成本很高、相关公开数据集稀少，导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。WordSup提出了一种弱监督的训练框架，可以文本行、单词级标注数据集上训练出字符级检测模型。

如下图所示，WordSup弱监督训练框架中，两个训练步骤被交替执行：给定当前字符检测模型，并结合单词级标注数据，计算出字符中心点掩码图；给定字符中心点掩码图，有监督地训练字符级检测模型.

如下图，训练好字符检测器后，可以在数据流水线中加入合适的文本结构分析模块，以输出符合应用场景格式要求的文本内容。该文作者例举了多种文本结构分析模块的实现方法。

（选自arXiv: 1708.06720，’WordSup： Exploiting Word Annotations for Character based Text Detection’）

文本识别模型

文本识别模型的目标是从已分割出的文字区域中识别出文本内容。

CRNN模型

CRNN(Convolutional Recurrent Neural Network）是目前较为流行的图文识别模型，可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层，能够进行端到端的联合训练。它利用BLSTM和CTC部件学习字符图像中的上下文关系，从而有效提升文本识别准确率，使得模型更加鲁棒。预测过程中，前端使用标准的CNN网络提取文本图像的特征，利用BLSTM将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层(CTC rule)进行预测得到文本序列。

（选自arXiv: 1507.05717，’An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’）

RARE模型

RARE（Robust text recognizer with Automatic Rectification）模型在识别变形的图像文本时效果很好。如下图所示，模型预测过程中，输入图像首先要被送到一个空间变换网络中做处理，矫正过的图像然后被送入序列识别网络中得到文本预测结果。

如下图所示，空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后，它可以根据输入图像的特征图动态地产生空间变换网格，然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS（thin-plate splines）的空间变换，从而能够比较准确地识别透视变换过的文本、以及弯曲的文本.

（选自arXiv: 1603.03915，’Robust Scene Text Recognition with Automatic Rectification’）

端到端模型

端到端模型的目标是一站式直接从图片中定位和识别出所有文本内容来。

FOTS Rotation-Sensitive Regression

FOTS（Fast Oriented Text Spotting）是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层，既节省了计算时间，也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域（RoIRotate）, 可以从卷积特征图中产生出定向的文本区域，从而支持倾斜文本的识别.

（选自arXiv: 1801.01671，’FOTS: Fast Oriented Text Spotting with a Unified Network’）

STN-OCR模型

STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络（STN）来对原始输入图像进行仿射（affine）变换。利用这个空间变换网络，可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作，从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法，只需要提供文本内容标注，而不要求文本定位信息。作者也提到，如果从头开始训练则网络收敛速度较慢，因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。

（选自arXiv: 1707.08831，’STN-OCR: A single Neural Network for Text Detection and Text Recognition’）

训练数据集

本章将列举可用于文本检测和识别领域模型训练的一些大型公开数据集，不涉及仅用于模型fine-tune任务的小型数据集。

Chinese Text in the Wild(CTW)

该数据集包含32285张图像，1018402个中文字符(来自于腾讯街景), 包含平面文本，凸起文本，城市文本，农村文本，低亮度文本，远处文本，部分遮挡文本。图像大小2048*2048，数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像，812872个汉字)，测试集(3269张图像，103519个汉字)，验证集(3129张图像，103519个汉字)。

文献链接：https://arxiv.org/pdf/1803.00085.pdf 
数据集下载地址：https://ctwdataset.github.io/

Reading Chinese Text in the Wild(RCTW-17)

该数据集包含12263张图像，训练集8034张，测试集4229张，共11.4GB。大部分图像由手机相机拍摄，含有少量的屏幕截图，图像中包含中文文本与少量英文文本。图像分辨率大小不等。

下载地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
文献：http://arxiv.org/pdf/1708.09585v2

ICPR MWI 2018 挑战赛

大赛提供20000张图像作为数据集，其中50%作为训练集，50%作为测试集。主要由合成图像，产品描述，网络广告构成。该数据集数据量充分，中英文混合，涵盖数十种字体，字体大小不一，多种版式，背景复杂。文件大小为2GB。

下载地址：
https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe

Total-Text

该数据集共1555张图像，11459文本行，包含水平文本，倾斜文本，弯曲文本。文件大小441MB。大部分为英文文本，少量中文文本。训练集：1255张测试集：300

下载地址：http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
文献：http:// arxiv.org/pdf/1710.10400v

Google FSNS(谷歌街景文本数据集)

该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志，每一张包含同一街道标志牌的不同视角，图像大小为600*150，训练集1044868张，验证集16150张，测试集20404张。

下载地址：http://rrc.cvc.uab.es/?ch=6&com=downloads
文献：http:// arxiv.org/pdf/1702.03970v1

COCO-TEXT

该数据集，包括63686幅图像，173589个文本实例，包括手写版和打印版，清晰版和非清晰版。文件大小12.58GB，训练集：43686张，测试集：10000张，验证集：10000张

文献: http://arxiv.org/pdf/1601.07140v2
下载地址：https://vision.cornell.edu/se3/coco-text-2/

Synthetic Data for Text Localisation

在复杂背景下人工合成的自然场景文本数据。包含858750张图像，共7266866个单词实例，28971487个字符，文件大小为41GB。该合成算法，不需要人工标注就可知道文字的label信息和位置信息，可得到大量自然场景文本标注数据。

下载地址：http://www.robots.ox.ac.uk/~vgg/data/scenetext/
文献：http://www.robots.ox.ac.uk/~ankush/textloc.pdf
Code: https://github.com/ankush-me/SynthText (英文版)
Code https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)

Synthetic Word Dataset

合成文本识别数据集，包含9百万张图像，涵盖了9万个英语单词。文件大小为10GB

下载地址：http://www.robots.ox.ac.uk/~vgg/data/text/

Caffe-ocr中文合成数据

数据利用中文语料库，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，共360万张图片，图像分辨率为280x32，涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB

下载地址：https://pan.baidu.com/s/1dFda6R3

参考文献

1. “光学字符识别技术：让电脑像人一样阅读”, 新浪微博, 霍强

http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

2. “Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038，Jonathan Long, Evan Shelhamer, Trevor Darrell

https://arxiv.org/pdf/1411.4038

3. “Spatial Transformer Networks”，arXiv:1506.02025，Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

https://arxiv.org/pdf/1506.02025

4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”，arXiv:1506.01497，Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

https://arxiv.org/pdf/1506.01497

5.“SSD: Single Shot MultiBox Detector”，arxiv:1512.02325，Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

https://arxiv.org/pdf/1512.02325

6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”，arXiv:1609.03605，Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

https://arxiv.org/pdf/1609.03605

7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”，arXiv:1703.01086，Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

https://arxiv.org/pdf/1703.01086

8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”，arXiv:1709.03272，Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

https://arxiv.org/pdf/1709.03272

9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”，arXiv:1703.01425，Yuliang Liu, Lianwen Jin

https://arxiv.org/pdf/1703.01425

10.“EAST: An Efficient and Accurate Scene Text Detector”，arXiv:1704.03155，Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

https://arxiv.org/pdf/1704.03155

11.“Detecting Oriented Text in Natural Images by Linking Segments”，arXiv:1703.06520，Baoguang Shi, Xiang Bai, Serge Belongie

https://arxiv.org/pdf/1703.06520

12. “Detecting Scene Text via Instance Segmentation”，arXiv:1801.01315，Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

https://arxiv.org/pdf/1801.01315

13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”，arXiv:1611.06779，Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

https://arxiv.org/pdf/1611.06779

14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”，arXiv:1801.02765，Minghui Liao, Baoguang Shi, Xiang Bai

https://arxiv.org/pdf/1801.02765

15.“WordSup： Exploiting Word Annotations for Character based Text Detection”，arXiv:1708.06720，Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

https://arxiv.org/pdf/1708.06720

16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”，arXiv:1507.05717，Baoguang Shi, Xiang Bai, Cong Yao

https://arxiv.org/pdf/1507.05717

17. “Robust Scene Text Recognition with Automatic Rectification”，arXiv:1603.03915，Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

https://arxiv.org/pdf/1603.03915

18.“FOTS: Fast Oriented Text Spotting with a Unified Network”，arXiv:1801.01671，Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

https://arxiv.org/pdf/1801.01671

19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”，arXiv:1707.08831，Christian Bartz, Haojin Yang, Christoph Meinel

https://arxiv.org/pdf/1707.08831

20.“Chinese Text in the Wild”，arXiv:1803.00085，Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

https://arxiv.org/pdf/1803.00085.pdf

21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”，arXiv:1708.09585，Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

http://arxiv.org/pdf/1708.09585

22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”，arXiv:1710.10400，Chee Kheng Chng, Chee Seng Chan

https://arxiv.org/pdf/1710.10400

23.“End-to-End Interpretation of the French Street Name Signs Dataset”，arXiv:1702.03970，Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

https://arxiv.org/pdf/1702.03970

24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”，arXiv:1601.07140，Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

http://arxiv.org/pdf/1601.07140

25. “Synthetic Data for Text Localisation in Natural Images”，arXiv:1604.06646， Ankush Gupta， Andrea Vedaldi， Andrew Zisserman

https://arxiv.org/pdf/1604.06646

你可能感兴趣的:(DL,NLP)

Fiddler中文版抓包工具在跨域与OAuth调试中的深度应用 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
跨域和OAuth授权流程一直是Web和移动开发中最容易踩坑的领域。复杂的CORS配置、重定向中的Token传递、授权码流程的跳转，以及多域名环境下的Cookie共享，常常让开发者陷入调试困境。此时，一款能够精准捕获、修改、重放请求的抓包工具显得至关重要，而Fiddler抓包工具正是解决此类难题的核心武器。Fiddler中文网（https://telerik.com.cn/）为跨域和OAuth接入场
Fiddler抓包工具在多端调试中的实战应用：结合Postman与Charles构建调试工作流 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
在如今前后端分离、接口驱动开发逐渐成为主流的背景下，开发者越来越依赖于各类调试工具，以应对复杂的网络请求管理、多设备调试和跨团队协作等问题。而在诸多网络分析工具中，Fiddler抓包工具以其功能全面、扩展灵活、支持HTTPS抓包和断点调试等特性，在开发者圈中拥有稳定的口碑。本文将从一个更贴近日常开发流程的角度，探讨如何在多端调试、接口测试、数据模拟等环节中，灵活运用Fiddler，并与Postma
高通手机跑AI系列之——姿态识别伊利丹~怒风 Qualcomm 智能手机人工智能 AI编程 python arm
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机速度越快软件APP：AidLux2.0系统环境：Ubuntu2
高通手机跑AI系列之——实时头发识别伊利丹~怒风 Qualcomm 智能手机 AI编程 python arm 人工智能
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机速度越快软件APP：AidLux2.0系统环境：Ubuntu2
高通手机跑AI系列之——手部姿势跟踪伊利丹~怒风 Qualcomm 智能手机 AI编程 python arm 人工智能
环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能越好的手机运行速度越快软件APP：AidLux2.0系统环境：Ubunt
《AI颠覆编码：GPT-4在编译器层面的奇幻漂流》的深度技术解析踢足球的，程序猿人工智能 python c语言
一、传统编译器的黄昏：LLVM面临的AI降维打击1.1经典优化器的性能天花板//LLVM循环优化Pass传统实现（LoopUnroll.cpp）voidLoopUnrollPass::runOnLoop(Loop*L){unsignedTripCount=SE->getSmallConstantTripCount(L);if(!TripCount||TripCount>UnrollThreshol
代码随想录算法训练营第52天 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Amor_Fati_Yu 算法 java 数据结构
101.孤岛的总面积importjava.util.*;publicclassMain{privatestaticintcount=0;privatestaticfinalint[][]dir={{0,1},{1,0},{-1,0},{0,-1}};//四个方向privatestaticvoidbfs(int[][]grid,intx,inty){Queueque=newLinkedList=gr
【问题解决】pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 aPurpleBerry 问题解决前端
今天配置完poetry环境变量之后pnpm不能用了具体报错pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。所在位置行:1字符:1+pnpmrundev+~~~~+CategoryInfo:ObjectNotFound:(pnpm:String)[],CommandNotFoundException+F
安卓开发手动构建 .so XCZHONGS android
手动构建.so（兼容废弃ABI）下载旧版NDK（推荐r16b）地址：https://developer.android.com/ndk/downloads/older_releases下载NDKr16b（最后支持armeabi、mips、mips64的版本）使用ndk-build手动构建（不使用Gradle）在源文件目录下执行D:\ideal\androidstudio\sdk\ndk\16.1.
Linux命令行操作基础 EnigmaCoder Linux linux 运维服务器
目录前言目录结构✍️语法格式操作技巧Tab补全光标操作基础命令登录和电源管理命令⚙️login⚙️last⚙️exit⚙️shutdown⚙️halt⚙️reboot文件命令⚙️浏览目录类命令pwdcdls⚙️浏览文件类命令catmorelessheadtail⚙️目录操作类命令mkdirrmdir⚙️文件操作类命令mvrmtouchfindgziptar⚙️cp前言大家好！我是EnigmaCod
webpack和vite区别 PromptOnce webpack 前端 node.js
一、Webpack1.概述Webpack是一个模块打包工具，它会递归地构建依赖关系图，并将所有模块打包成一个或多个bundle（包）。2.特点配置灵活：Webpack提供了高度可定制的配置文件，可以根据项目需求进行各种优化。生态系统丰富：Webpack拥有庞大的插件和加载器生态系统，可以处理各种资源类型（JavaScript、CSS、图片等）。支持代码拆分：通过代码拆分和懒加载，Webpack可以
webpack和vite对比解析（AI）秉承初心 AI创造 webpack 前端 node.js
以下是Webpack和Vite的对比解析，从核心机制、性能、配置扩展性、适用场景等维度进行详细说明：⚙️一、核心机制差异构建模式Webpack：采用打包器模式，启动时需遍历整个模块依赖图，将所有资源打包成Bundle，再启动开发服务器。Vite：基于ESModules原生支持，开发环境跳过打包，按需编译（浏览器请求时实时编译）。生产环境才用Rollup打包。依赖处理Webpack：冷启动时需全量打
C# 中 EventWaitHandle 实现多进程状态同步的深度解析 Leon@Lee c#开发语言
在现代软件开发中，多进程应用场景日益普遍。无论是分布式系统、微服务架构，还是传统的客户端-服务器模型，进程间的状态同步都是一个关键挑战。C#提供了多种同步原语，其中EventWaitHandle是一个强大的工具，特别适合处理跨进程的同步需求。本文将深入探讨EventWaitHandle的工作原理、使用场景及最佳实践。一、EventWaitHandle基础原理EventWaitHandle是.NET
【lua】Linux上安装lua和luarocks包管理工具果壳~ lua linux 开发语言
目录安装lua安装luarocksluarocks其他命令安装lua首先打开lua官网https://lua.org点击download就可以看到安装脚本新建一个目录将压缩包下载到这个目录里curl-L-R-Ohttps://www.lua.org/ftp/lua-5.4.8.tar.gztarzxflua-5.4.8.tar.gzcdlua-5.4.8makealltest#最后还得加上make
HDMIheb.dll hpgtg311.dll HPCommon.dll HQTTS.0409.409.dll HpuFunction.dll hpzpe4v3.DLL Hardware a***0738 microsoft visual studio windows
在使用电脑系统时经常会出现丢失找不到某些文件的情况，由于很多常用软件都是采用MicrosoftVisualStudio编写的，所以这类软件的运行需要依赖微软VisualC++运行库，比如像QQ、迅雷、Adobe软件等等，如果没有安装VC++运行库或者安装的版本不完整，就可能会导致这些软件启动时报错，提示缺少库文件。如果我们遇到关于文件在系统使用过程中提示缺少找不到的情况，如果文件是属于运行库文件的
CSS实标题现同心圆的缩放做一个暴躁的开发 css3 html
CSS实标题现同心圆的缩放最近学习了css动画效果，记录一下同心圆的缩放问题问题描述我先设置了两个div，外圈是class=“one”，内圈是class=“two”,代码如下：分别设置他们的div，给他们边框，并且设置成圆形.one{width:500px;height:500px;border:20pxsolidlightcoral;border-radius:50%;overflow:hidd
uniapp内嵌的webview H5与应用通信 printf_824 uniapp分享 uni-app
H5端：1、找到index.html引入依赖2、在需要通讯处发送消息uni.postMessage({data:{code:200,msg:"处理完成"}})uniapp端：使用@message="handlerMessage"回调的event里有所需信息functionhandlerMessage(event){console.log("接收到信息");let{code,msg}=event.d
VSCode在windows系统下编译动态链接库不生成Lib文件小女孩真可爱解决bug vscode c++
解决方法：(1)在CMakeLists.txt文件加入set(CMAKE_WINDOWS_EXPORT_ALL_SYMBOLSON)这句话放在前面才可以生成lib文件，放在最后面不会生成lib(2)第一步是解决编译找不到lib会发生报错，但并不会生成lib文件。所以需要再头文件（.h文件）里面增加一行，这样导出的时候才会生成lib文件。__declspec(dllexport)voidnothin
libdl.so.2 undefined symbol _dl_vsym version GLIBC_PRIVATE
千万别盲目安装新版本的glibc今天来了个新项目，依赖新版本的glibc，旧版本的glibc会报错如下/lib64/libc.so.6:version`GLIBC_2.33'notfound/lib64/libc.so.6:version`GLIBC_2.34'notfound查看本机的版本strings/lib64/libc.so.6|grepGLIBC_可以发现最大只支持到GLIBC_2.30
Android-Layout Inspector使用手册每次的天空 android 学习
LayoutInspectorAndroidLayoutInspector是AndroidStudio中用于调试应用布局的工具启动方法：通过下载LayoutInspector插件，在“View-ToolWindows-LayoutInspector”或“Tools-LayoutInspector”启动。主要界面区域：ComponentTree：显示布局中视图的层次结构，帮助直观查看应用中的元素及其
gRPC技术解析与python示例漫谈网络 NetDevOps 智联空间 python 开发语言 rpc grpc
一、gRPC核心架构1.多语言存根2.HTTP/2传输3.多语言实现生成生成客户端gRPC客户端库gRPC服务端库服务端业务逻辑ProtobufIDL二、成为「多语言RPC标准」的5大支柱1.语言无关的接口定义使用Protobuf作为接口定义语言（IDL）：//服务定义(hello.proto)syntax="proto3";serviceGreeter{rpcSayHello(HelloRequ
【C#】实现C#传回调函数到C++，由C++计算结果回调返回加号3 c#c++
1.C++代码实现.h代码extern"C"typedefint(*Callback)(int);extern"C"__declspec(dllexport)voidRegisterCallback(Callbackcb,intx,inty);.cpp代码#include"CallBack.h"voidRegisterCallback(Callbackcb,intx,inty){intresult
嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》嘉为蓝鲸可观测嘉为蓝鲸智能运维 Gartner 可观测
直达原文：嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》2025年5月，国际研究机构Gartner发布了《中国智能IT监控与日志分析工具市场指南》（MarketGuideforIntelligentITMonitoringandLogAnalysisToolsinChina），嘉为蓝鲸全栈智能可观测中心·鲸眼凭借嘉为蓝鲸日志中心与嘉为蓝鲸应用性能观测中心（APM
Vue组件自动引入插件——unplugin-vue-components 快速接入教程前端77 vue.js 前端 javascript
1.简介unplugin-vue-components是一款功能十分强大的插件，旨在简化组件的自动导入和使用，可以帮助我们在Vue项目中自动导入并注册我们使用的任何Vue组件，从而提高开发效率。unplugin-vue-components使用RollupAPI作为各种bundler/ebuild`工具API的抽象层，将Rollup风格的构建hooks和调用函数转换为与目标构建打包工具兼容的形式。
Dpdk环境的搭建 Flying Fish（HHH） dpdk 分布式计算机网络
1、下载源码：gitclonehttps://github.com/DPDK/dpdk2、编译命令CC=gccmeson-Dlibdir=lib--default-library=static-Dexamples=allx86_64-native-linuxapp-gcc-Dbuildtype=debugoptimizedninja-Cx86_64-native-linuxapp-gcc-j110
【设计模式】单例模式之双检锁（Double-Checked Locking）浩瀚之水_csdn #软件模式设计模式单例模式
双检锁（Double-CheckedLocking）是一种在多线程环境下高效实现单例模式的技术，它结合了延迟初始化和线程安全的优点，避免了不必要的同步开销。核心思想双检锁的核心思想是：第一重检查（无锁）：快速检查实例是否已创建加锁保护：确保只有一个线程进入创建流程第二重检查（有锁）：再次检查实例是否已创建创建实例：如果仍未创建，则创建实例经典实现（C++11之前）#includeclassSing
rules写成动态会点法律的程序员前端 javascript vue.js
拖拽排序和必填校验联动(rules写到computed里)computed:{rules(){construles={};this.form.feedList.forEach((item,idx)=>{rules[`feedList.${idx}`]=[{required:true,message:`路线评价动态${idx+1}待填写，请填写完毕提交`,trigger:'change'}];});
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
视线实时跟踪项目云博士的AI课堂基于Python计算机视觉视线跟踪 python 计算机视觉机器视觉 opencv 视线检测
GitHub项目antoinelame/GazeTracking的详细介绍，包括项目概述、功能、解决的问题、应用场景、安装与使用说明等：项目概述GazeTracking是一个基于Python的开源库，利用普通网络摄像头实现实时眼动追踪。它能够检测用户瞳孔的精确位置和视线方向，支持Python2和3。该项目通过结合OpenCV和Dlib库，提供了一种低成本、高精度的眼动追踪解决方案，适用于多种应用场
Whistle 超详细技术博客：原理、配置、用法与进阶技巧全解北漂老男人抓包工具运维
Whistle超详细技术博客：原理、配置、用法与进阶技巧全解目录Whistle简介与应用场景Whistle安装与启动Whistle原理与架构Whistle规则语法详解常用配置与实战场景Whistle进阶用法与技巧常见问题与排查实用插件推荐总结与参考资料1.Whistle简介与应用场景Whistle是一款基于Node.js的跨平台Web调试代理工具，功能类似于Charles、Fiddler，但更轻量
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号