机器视觉001

PaddleOCR问题汇总(1)

PaddleOCR问题汇总

Q2.3.25: 图像正常识别出来的文字是OK的，旋转90度后识别出来的结果比较差，有什么方法可以优化？

A: 整图旋转90之后效果变差是有可能的，因为目前PPOCR默认输入的图片是正向的；可以自己训练一个整图的方向分类器，放在预测的最前端（可以参照现有方向分类器的方式），或者可以基于规则做一些预处理，比如判断长宽等等。

Q3.1.78: 在线demo支持阿拉伯语吗？

A：在线demo目前只支持中英文，多语言的都需要通过whl包自行处理。

Q3.1.79: 某个类别的样本比较少，通过增加训练的迭代次数或者是epoch，变相增加小样本的数目，这样能缓解这个问题么？

A：尽量保证类别均衡，某些类别样本少，可以通过补充合成数据的方式处理；实验证明训练集中出现频次较少的字符，识别效果会比较差，增加迭代次数不能改变样本量少的问题。

Q3.1.80: 想把简历上的文字识别出来后，能够把关系一一对应起来，比如姓名和它后面的名字组成一对，籍贯、邮箱、学历等等都和各自的内容关联起来，这个应该如何处理，PPOCR目前支持吗？

A: 这样的需求在企业应用中确实比较常见，但往往都是个性化的需求，没有非常规整统一的处理方式。常见的处理方式有如下两种：

对于单一版式、或者版式差异不大的应用场景，可以基于识别场景的一些先验信息，将识别内容进行配对；比如运用表单结构信息：常见表单"姓名"关键字的后面，往往紧跟的就是名字信息
对于版式多样，或者无固定版式的场景，需要借助于NLP中的NER技术，给识别内容中的某些字段，赋予key值。

由于这部分需求和业务场景强相关，难以用一个统一的模型去处理，目前PPOCR暂不支持。如果需要用到NER技术，可以参照Paddle团队的另一个开源套件: https://github.com/PaddlePaddle/ERNIE，其提供的预训练模型ERNIE, 可以帮助提升NER任务的准确率。

Q3.4.49: 同一个模型，c++部署和python部署方式，出来的结果不一致，如何定位？

A：有如下几个Debug经验：

优先对一下几个阈值参数是否一致；
排查一下c++代码和python代码的预处理和后处理方式是否一致；
用python在模型输入输出各保存一下二进制文件，排除inference的差异性。

Q1.1.1：基于深度学习的文字检测方法有哪几种？各有什么优缺点？

A：常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类，当然还有一些将两者进行结合的方法。

（1）基于回归的方法分为box回归和像素值回归。a. 采用box回归的方法主要有CTPN、Textbox系列和EAST，这类算法对规则形状文本检测效果较好，但无法准确检测不规则形状文本。 b. 像素值回归的方法主要有CRAFT和SA-Text，这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。

（2）基于分割的算法，如PSENet，这类算法不受文本形状的限制，对各种形状的文本都能取得较好的效果，但是往往后处理比较复杂，导致耗时严重。目前也有一些算法专门针对这个问题进行改进，如DB，将二值化进行近似，使其可导，融入训练，从而获取更准确的边界，大大降低了后处理的耗时。

Q1.1.2：对于中文行文本识别，CTC和Attention哪种更优？

A：（1）从效果上来看，通用OCR场景CTC的识别效果优于Attention，因为带识别的字典中的字符比较多，常用中文汉字三千字以上，如果训练样本不足的情况下，对于这些字符的序列关系挖掘比较困难。中文场景下Attention模型的优势无法体现。而且Attention适合短语句识别，对长句子识别比较差。

（2）从训练和预测速度上，Attention的串行解码结构限制了预测速度，而CTC网络结构更高效，预测速度上更有优势。

Q1.1.3：弯曲形变的文字识别需要怎么处理？TPS应用场景是什么，是否好用？

A：（1）在大多数情况下，如果遇到的场景弯曲形变不是太严重，检测4个顶点，然后直接通过仿射变换转正识别就足够了。

（2）如果不能满足需求，可以尝试使用TPS（Thin Plate Spline），即薄板样条插值。TPS是一种插值算法，经常用于图像变形等，通过少量的控制点就可以驱动图像进行变化。一般用在有弯曲形变的文本识别中，当检测到不规则的/弯曲的（如，使用基于分割的方法检测算法）文本区域，往往先使用TPS算法对文本区域矫正成矩形再进行识别，如，STAR-Net、RARE等识别算法中引入了TPS模块。 Warning：TPS看起来美好，在实际应用时经常发现并不够鲁棒，并且会增加耗时，需要谨慎使用。

Q1.1.4：简单的对于精度要求不高的OCR任务，数据集需要准备多少张呢？

A：（1）训练数据的数量和需要解决问题的复杂度有关系。难度越大，精度要求越高，则数据集需求越大，而且一般情况实际中的训练数据越多效果越好。

（2）对于精度要求不高的场景，检测任务和识别任务需要的数据量是不一样的。对于检测任务，500张图像可以保证基本的检测效果。对于识别任务，需要保证识别字典中每个字符出现在不同场景的行文本图像数目需要大于200张（举例，如果有字典中有5个字，每个字都需要出现在200张图片以上，那么最少要求的图像数量应该在200-1000张之间），这样可以保证基本的识别效果。

Q1.1.5：背景干扰的文字（如印章盖到落款上，需要识别落款或者印章中的文字），如何识别？

A：（1）在人眼确认可识别的条件下，对于背景有干扰的文字，首先要保证检测框足够准确，如果检测框不准确，需要考虑是否可以通过过滤颜色等方式对图像预处理并且增加更多相关的训练数据；在识别的部分，注意在训练数据中加入背景干扰类的扩增图像。

（2）如果MobileNet模型不能满足需求，可以尝试ResNet系列大模型来获得更好的效果。

Q1.1.6：OCR领域常用的评估指标是什么？

A：对于两阶段的可以分开来看，分别是检测和识别阶段

（1）检测阶段：先按照检测框和标注框的IOU评估，IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框，是采用多边形进行表示。检测准确率：正确的检测框个数在全部检测框的占比，主要是判断检测指标。检测召回率：正确的检测框个数在全部标注框的占比，主要是判断漏检的指标。

（2）识别阶段：字符识别准确率，即正确识别的文本行占标注的文本行数量的比例，只有整行文本识别对才算正确识别。

（3）端到端统计：端对端召回率：准确检测并正确识别文本行在全部标注文本行的占比；端到端准确率：准确检测并正确识别文本行在检测到的文本行数量的占比；准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的的检测框中的文本与标注的文本相同。

Q1.1.7：单张图上多语种并存识别（如单张图印刷体和手写文字并存），应该如何处理？

A：单张图像中存在多种类型文本的情况很常见，典型的以学生的试卷为代表，一张图像同时存在手写体和印刷体两种文本，这类情况下，可以尝试”1个检测模型+1个N分类模型+N个识别模型”的解决方案。其中不同类型文本共用同一个检测模型，N分类模型指额外训练一个分类器，将检测到的文本进行分类，如手写+印刷的情况就是二分类，N种语言就是N分类，在识别的部分，针对每个类型的文本单独训练一个识别模型，如手写+印刷的场景，就需要训练一个手写体识别模型，一个印刷体识别模型，如果一个文本框的分类结果是手写体，那么就传给手写体识别模型进行识别，其他情况同理。

Q1.1.8：请问PaddleOCR项目中的中文超轻量和通用模型用了哪些数据集？训练多少样本，gpu什么配置，跑了多少个epoch，大概跑了多久？

A：

（1）检测的话，LSVT街景数据集共3W张图像，超轻量模型，150epoch左右，2卡V100 跑了不到2天；通用模型：2卡V100 150epoch 不到4天。

（2）识别的话，520W左右的数据集（真实数据26W+合成数据500W）训练，超轻量模型：4卡V100，总共训练了5天左右。通用模型：4卡V100，共训练6天。

超轻量模型训练分为2个阶段：

(1) 全量数据训练50epoch，耗时3天

(2) 合成数据+真实数据按照1:1数据采样，进行finetune训练200epoch，耗时2天

通用模型训练：真实数据+合成数据，动态采样(1:1)训练，200epoch，耗时 6天左右。

Q1.1.9：PaddleOCR模型推理方式有几种？各自的优缺点是什么？

A：目前推理方式支持基于训练引擎推理和基于预测引擎推理。

（1）基于训练引擎推理不需要转换模型，但是需要先组网再load参数，语言只支持python，不适合系统集成。

（2）基于预测引擎的推理需要先转换模型为inference格式，然后可以进行不需要组网的推理，语言支持c++和python，适合系统集成。

Q1.1.10：PaddleOCR中，对于模型预测加速，CPU加速的途径有哪些？基于TenorRT加速GPU对输入有什么要求？

A：（1）CPU可以使用mkldnn进行加速；对于python inference的话，可以把enable_mkldnn改为true，参考代码，对于cpp inference的话，在配置文件里面配置use_mkldnn 1即可，参考代码

（2）GPU需要注意变长输入问题等，TRT6 之后才支持变长输入

OCR通用问题

基础知识

Q2.1.1：CRNN能否识别两行的文字?还是说必须一行？

A：CRNN是一种基于1D-CTC的算法，其原理决定无法识别2行或多行的文字，只能单行识别。

Q2.1.2：怎么判断行文本图像是否是颠倒的？

A：有两种方案：（1）原始图像和颠倒图像都进行识别预测，取得分较高的为识别结果。（2）训练一个正常图像和颠倒图像的方向分类器进行判断。

Q2.1.3：目前OCR普遍是二阶段，端到端的方案在业界落地情况如何？

A：端到端在文字分布密集的业务场景，效率会比较有保证，精度的话看自己业务数据积累情况，如果行级别的识别数据积累比较多的话two-stage会比较好。百度的落地场景，比如工业仪表识别、车牌识别都用到端到端解决方案。

Q2.1.4 印章如何识别?

A：1. 使用带tps的识别网络或abcnet； 2.使用极坐标变换将图片拉平之后使用crnn。

Q2.1.5 多语言的字典里是混合了不同的语种，这个是有什么讲究吗？统一到一个字典里会对精度造成多大的损失？

A：统一到一个字典里，会造成最后一层FC过大，增加模型大小。如果有特殊需求的话，可以把需要的几种语言合并字典训练模型，合并字典之后如果引入过多的形近字，可能会造成精度损失，字符平衡的问题可能也需要考虑一下。在PaddleOCR里暂时将语言字典分开。

Q2.1.6 预处理部分，图片的长和宽为什么要处理成32的倍数？

A：以检测中的resnet骨干网络为例，图像输入网络之后，需要经过5次2倍降采样，共32倍，因此建议输入的图像尺寸为32的倍数。

Q2.1.7：类似泰语这样的小语种，部分字会占用两个字符甚至三个字符，请问如何制作字典？

A：处理字符的时候，把多字符的当作一个字就行，字典中每行是一个字。

Q2.1.8: 端到端的场景文本识别方法大概分为几种？

A：端到端的场景文本识别方法大概分为2种：基于二阶段的方法和基于字符级别的方法。

基于两阶段的方法一般先检测文本块，然后提取文本块中的特征用于识别，例如ABCNet；

基于字符级别方法直接进行字符检测与识别，直接输出单词的文本框，字符框以及对应的字符类别，例如CharNet。

Q2.1.9: 二阶段的端到端的场景文本识别方法的不足有哪些？

A: 这类方法一般需要设计针对ROI提取特征的方法，而ROI操作一般比较耗时。

Q2.1.10: 基于字符级别的端到端的场景文本识别方法的不足有哪些？

A: 这类方法一方面训练时需要加入字符级别的数据，一般使用合成数据，但是合成数据和真实数据有分布Gap。另一方面，现有工作大多数假设文本阅读方向，从上到下，从左到右，没有解决文本方向预测问题。

Q2.1.11: AAAI 2021最新的端到端场景文本识别PGNet算法有什么特点？

A: PGNet不需要字符级别的标注，NMS操作以及ROI操作。同时提出预测文本行内的阅读顺序模块和基于图的修正模块来提升文本识别效果。该算法是百度自研，近期会在PaddleOCR开源。

Q2.1.12: PubTabNet 数据集关注的是什么问题？

A: PubTabNet是IBM提出的基于图片格式的表格识别数据集，包含 56.8 万张表格数据的图像，以及图像对应的 html 格式的注释。该数据集的发布推动了表格结构化算法的研发和落地应用。

Q2.1.13: PaddleOCR提供的文本识别算法包括哪些？

A: PaddleOCR主要提供五种文本识别算法，包括CRNN\StarNet\RARE\Rosetta和SRN, 其中CRNN\StarNet和Rosetta是基于ctc的文字识别算法，RARE是基于attention的文字识别算法；SRN为百度自研的文本识别算法，引入了语义信息，显著提升了准确率。详情可参照如下页面: 文本识别算法

Q2.1.14: 在识别模型中，为什么降采样残差结构的stride为(2, 1)？

A: stride为(2, 1)，表示在图像y方向（高度方向）上stride为2，x方向（宽度方向）上为1。由于待识别的文本图像通常为长方形，这样只在高度方向做下采样，尽量保留宽度方向的序列信息，避免宽度方向下采样后丢失过多的文字信息。

Q2.1.15: 文本识别方法CRNN关键技术有哪些？

A: CRNN 关键技术包括三部分。

（1）CNN提取图像卷积特征。

（2）深层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征。

（3）Connectionist Temporal Classification(CTC)，解决训练时字符无法对齐的问题。

Q2.1.16: 百度自研的SRN文本识别方法特点有哪些？

A: SRN文本识别方法特点主要有四个部分：

（1）使用Transformer Units（TUs）模块加强图像卷积特征的表达能力。

（2）提出Parallel Visual Attention Module（PVAM）模块挖掘特征之间的相互关系。

（3）提出Global Semantic Reasoning Module（GSRM）模块挖掘识别结果语义相互关系。

（4）提出Visual-Semantic Fusion Decoder（VSFD）模块有效融合PVAM提取的视觉特征和GSRM提取的语义特征。

数据集

Q2.2.1：支持空格的模型，标注数据的时候是不是要标注空格？中间几个空格都要标注出来么？

A：如果需要检测和识别模型，就需要在标注的时候把空格标注出来，而且在字典中增加空格对应的字符。标注过程中，如果中间几个空格标注一个就行。

Q2.2.2：如果考虑支持竖排文字识别，相关的数据集如何合成？

A：竖排文字与横排文字合成方式相同，只是选择了垂直字体。合成工具推荐：text_renderer

Q2.2.3：训练文字识别模型，真实数据有30w，合成数据有500w，需要做样本均衡吗？

A：需要，一般需要保证一个batch中真实数据样本和合成数据样本的比例是1:1~1:3左右效果比较理想。如果合成数据过大，会过拟合到合成数据，预测效果往往不佳。还有一种启发性的尝试是可以先用大量合成数据训练一个base模型，然后再用真实数据微调，在一些简单场景效果也是会有提升的。

Q2.2.4：请问一下，竖排文字识别时候，字的特征已经变了，这种情况在数据集和字典标注是新增一个类别还是多个角度的字共享一个类别？

A：可以根据实际场景做不同的尝试，共享一个类别是可以收敛，效果也还不错。但是如果分开训练，同类样本之间一致性更好，更容易收敛，识别效果会更优。

Q2.2.5：文本行较紧密的情况下如何准确检测？

A：使用基于分割的方法，如DB，检测密集文本行时，最好收集一批数据进行训练，并且在训练时，并将生成二值图像的shrink_ratio参数调小一些。

Q2.2.6: 当训练数据量少时，如何获取更多的数据？

A：当训练数据量少时，可以尝试以下三种方式获取更多的数据：

（1）人工采集更多的训练数据，最直接也是最有效的方式。

（2）基于PIL和opencv基本图像处理或者变换。例如PIL中ImageFont, Image, ImageDraw三个模块将文字写到背景中，opencv的旋转仿射变换，高斯滤波等。

（3）利用数据生成算法合成数据，例如pix2pix等算法。

Q2.2.7: 论文《Editing Text in the Wild》中文本合成方法SRNet有什么特点？

A：SRNet是借鉴GAN中图像到图像转换、风格迁移的想法合成文本数据。不同于通用GAN的方法只选择一个分支，SRNet将文本合成任务分解为三个简单的子模块，提升合成数据的效果。这三个子模块为不带背景的文本风格迁移模块、背景抽取模块和融合模块。PaddleOCR计划将在2020年12月中旬开源基于SRNet的实用模型。

Q2.2.8: DBNet如果想使用多边形作为输入，数据标签格式应该如何设定？

A：如果想使用多边形作为DBNet的输入，数据标签也应该用多边形来表示。这样子可以更好得拟合弯曲文本。PPOCRLabel暂时只支持矩形框标注和四边形框标注。

Q2.2.9: 端到端算法PGNet使用的是什么类型的数据集呢？

A: PGNet目前可以使用四点标注数据集，也可以使用多点标注数据集（十四点），多点标注训练的效果要比四点的好，一种可以尝试的策略是先在四点数据集上训练，之后用多点数据集在此基础上继续训练。

Q2.2.10: 文档版面分析常用数据集有哪些？

A: 文档版面分析常用数据集常用数据集有PubLayNet、TableBank word、TableBank latex等。

模型训练调优

Q2.3.1：如何更换文本检测/识别的backbone？

A：无论是文字检测，还是文字识别，骨干网络的选择是预测效果和预测效率的权衡。一般，选择更大规模的骨干网络，例如ResNet101_vd，则检测或识别更准确，但预测耗时相应也会增加。而选择更小规模的骨干网络，例如MobileNetV3_small_x0_35，则预测更快，但检测或识别的准确率会大打折扣。幸运的是不同骨干网络的检测或识别效果与在ImageNet数据集图像1000分类任务效果正相关。飞桨图像分类套件PaddleClas汇总了ResNet_vd、Res2Net、HRNet、MobileNetV3、GhostNet等23种系列的分类网络结构，在上述图像分类任务的top1识别准确率，GPU(V100和T4)和CPU(骁龙855)的预测耗时以及相应的117个预训练模型下载地址。

（1）文字检测骨干网络的替换，主要是确定类似与ResNet的4个stages，以方便集成后续的类似FPN的检测头。此外，对于文字检测问题，使用ImageNet训练的分类预训练模型，可以加速收敛和效果提升。

（2）文字识别的骨干网络的替换，需要注意网络宽高stride的下降位置。由于文本识别一般宽高比例很大，因此高度下降频率少一些，宽度下降频率多一些。可以参考PaddleOCR中MobileNetV3骨干网络的改动。

Q2.3.2：文本识别训练不加LSTM是否可以收敛？

A：理论上是可以收敛的，加上LSTM模块主要是为了挖掘文字之间的序列关系，提升识别效果。对于有明显上下文语义的场景效果会比较明显。

Q2.3.3：文本识别中LSTM和GRU如何选择？

A：从项目实践经验来看，序列模块采用LSTM的识别效果优于GRU，但是LSTM的计算量比GRU大一些，可以根据自己实际情况选择。

Q2.3.4：对于CRNN模型，backbone采用DenseNet和ResNet_vd，哪种网络结构更好？

A：Backbone的识别效果在CRNN模型上的效果，与Imagenet 1000 图像分类任务上识别效果和效率一致。在图像分类任务上ResnNet_vd（79%+）的识别精度明显优于DenseNet（77%+），此外对于GPU，Nvidia针对ResNet系列模型做了优化，预测效率更高，所以相对而言，resnet_vd是较好选择。如果是移动端，可以优先考虑MobileNetV3系列。

Q2.3.5：训练识别时，如何选择合适的网络输入shape？

A：一般高度采用32，最长宽度的选择，有两种方法：

（1）统计训练样本图像的宽高比分布。最大宽高比的选取考虑满足80%的训练样本。

（2）统计训练样本文字数目。最长字符数目的选取考虑满足80%的训练样本。然后中文字符长宽比近似认为是1，英文认为3：1，预估一个最长宽度。

Q2.3.6：如何识别文字比较长的文本？

A：在中文识别模型训练时，并不是采用直接将训练样本缩放到[3,32,320]进行训练，而是先等比例缩放图像，保证图像高度为32，宽度不足320的部分补0，宽高比大于10的样本直接丢弃。预测时，如果是单张图像预测，则按上述操作直接对图像缩放，不做宽度320的限制。如果是多张图预测，则采用batch方式预测，每个batch的宽度动态变换，采用这个batch中最长宽度。

Q2.3.7：识别训练时，训练集精度已经到达90了，但验证集精度一直在70，涨不上去怎么办？

A：训练集精度90，测试集70多的话，应该是过拟合了，有两个可尝试的方法：

（1）加入更多的增广方式或者调大增广prob的概率，默认为0.4。

（2）调大系统的l2 dcay值。

Q2.3.8：请问对于图片中的密集文字，有什么好的处理办法吗？

A：可以先试用预训练模型测试一下，例如DB+CRNN，判断下密集文字图片中是检测还是识别的问题，然后针对性的改善。还有一种是如果图象中密集文字较小，可以尝试增大图像分辨率，对图像进行一定范围内的拉伸，将文字稀疏化，提高识别效果。

Q2.3.9：对于一些在识别时稍微模糊的文本，有没有一些图像增强的方式？

A：在人类肉眼可以识别的前提下，可以考虑图像处理中的均值滤波、中值滤波或者高斯滤波等模糊算子尝试。也可以尝试从数据扩增扰动来强化模型鲁棒性，另外新的思路有对抗性训练和超分SR思路，可以尝试借鉴。但目前业界尚无普遍认可的最优方案，建议优先在数据采集阶段增加一些限制提升图片质量。

Q2.3.10：对于特定文字检测，例如身份证只检测姓名，检测指定区域文字更好，还是检测全部区域再筛选更好？

A：两个角度来说明一般检测全部区域再筛选更好。

（1）由于特定文字和非特定文字之间的视觉特征并没有很强的区分行，只检测指定区域，容易造成特定文字漏检。

（2）产品的需求可能是变化的，不排除后续对于模型需求变化的可能性（比如又需要增加一个字段），相比于训练模型，后处理的逻辑会更容易调整。

Q2.3.11：对于小白如何快速入门中文OCR项目实践？

A：建议可以先了解OCR方向的基础知识，大概了解基础的检测和识别模型算法。然后在Github上可以查看OCR方向相关的repo。目前来看，从内容的完备性来看，PaddleOCR的中英文双语教程文档是有明显优势的，在数据集、模型训练、预测部署文档详实，可以快速入手。而且还有微信用户群答疑，非常适合学习实践。项目地址：PaddleOCR

Q2.3.12：如何识别带空格的英文行文本图像？

A：空格识别可以考虑以下两种方案：

(1)优化文本检测算法。检测结果在空格处将文本断开。这种方案在检测数据标注时，需要将含有空格的文本行分成好多段。

(2)优化文本识别算法。在识别字典里面引入空格字符，然后在识别的训练数据中，如果用空行，进行标注。此外，合成数据时，通过拼接训练数据，生成含有空格的文本。

Q2.3.13：中英文一起识别时也可以加空格字符来训练吗？

A：中文识别可以加空格当做分隔符训练，具体的效果如何没法给出直接评判，根据实际业务数据训练来判断。

Q2.3.14：低像素文字或者字号比较小的文字有什么超分辨率方法吗？

A：超分辨率方法分为传统方法和基于深度学习的方法。基于深度学习的方法中，比较经典的有SRCNN，另外CVPR2020也有一篇超分辨率的工作可以参考文章：Unpaired Image Super-Resolution using Pseudo-Supervision，但是没有充分的实践验证过，需要看实际场景下的效果。

Q2.3.15：表格识别有什么好的模型或者论文推荐么？

A：表格目前学术界比较成熟的解决方案不多，可以尝试下分割的论文方案。

Q2.3.16：弯曲文本有试过opencv的TPS进行弯曲校正吗？

A：opencv的tps需要标出上下边界对应的点，这个点很难通过传统方法或者深度学习方法获取。PaddleOCR里StarNet网络中的tps模块实现了自动学点，自动校正，可以直接尝试这个。

Q2.3.17: StyleText 合成数据效果不好？

A：StyleText模型生成的数据主要用于OCR识别模型的训练。PaddleOCR目前识别模型的输入为32 x N，因此当前版本模型主要适用高度为32的数据。建议要合成的数据尺寸设置为32 x N。尺寸相差不多的数据也可以生成，尺寸很大或很小的数据效果确实不佳。

Q2.3.18: 在PP-OCR系统中，文本检测的骨干网络为什么没有使用SE模块？

A：SE模块是MobileNetV3网络一个重要模块，目的是估计特征图每个特征通道重要性，给特征图每个特征分配权重，提高网络的表达能力。但是，对于文本检测，输入网络的分辨率比较大，一般是640*640，利用SE模块估计特征图每个特征通道重要性比较困难，网络提升能力有限，但是该模块又比较耗时，因此在PP-OCR系统中，文本检测的骨干网络没有使用SE模块。实验也表明，当去掉SE模块，超轻量模型大小可以减小40%，文本检测效果基本不受影响。详细可以参考PP-OCR技术文章，https://arxiv.org/abs/2009.09941.

Q2.3.19: 参照文档做实际项目时，是重新训练还是在官方训练的基础上进行训练？具体如何操作？

A：基于官方提供的模型，进行finetune的话，收敛会更快一些。具体操作上，以识别模型训练为例：如果修改了字符文件，可以设置pretraind_model为官方提供的预训练模型。

Q2.3.20: 如何根据不同的硬件平台选用不同的backbone？

A：在不同的硬件上，不同的backbone的速度优势不同，可以根据不同平台的速度-精度图来确定backbone，这里可以参考PaddleClas模型速度-精度图。

Q2.3.21: 端到端算法PGNet是否支持中文识别，速度会很慢嘛？

A：目前开源的PGNet算法模型主要是用于检测英文数字，对于中文的识别需要自己训练，大家可以使用开源的端到端中文数据集，而对于复杂文本（弯曲文本）的识别，也可以自己构造一批数据集针对进行训练，对于推理速度，可以先将模型转换为inference再进行预测，速度应该会相当可观。

Q2.3.22: 目前知识蒸馏有哪些主要的实践思路？

A：知识蒸馏即利用教师模型指导学生模型的训练，目前有3种主要的蒸馏思路：

基于输出结果的蒸馏，即让学生模型学习教师模型的软标签（分类或者OCR识别等任务中）或者概率热度图（分割等任务中）。
基于特征图的蒸馏，即让学生模型学习教师模型中间层的特征图，拟合中间层的一些特征。
基于关系的蒸馏，针对不同的样本（假设个数为N），教师模型会有不同的输出，那么可以基于不同样本的输出，计算一个NxN的相关性矩阵，可以让学生模型去学习教师模型关于不同样本的相关性矩阵。

当然，知识蒸馏方法日新月异，也欢迎大家提出更多的总结与建议。

Q2.3.23: 文档版面分析常用方法有哪些？

A: 文档版面分析通常使用通用目标检测方法，包括Faster RCNN系列，YOLO系列等。面向产业实践，建议使用PaddleDetection中精度和效率出色的PP-YOLO v2目标检测方法进行训练。

Q2.3.24: 如何识别招牌或者广告图中的艺术字？

A: 招牌或者广告图中的艺术字是文本识别一个非常有挑战性的难题，因为艺术字中的单字和印刷体相比，变化非常大。如果需要识别的艺术字是在一个词典列表内，可以将改每个词典认为是一个待识别图像模板，通过通用图像检索识别系统解决识别问题。可以尝试使用PaddleClas的图像识别系统。

Q2.3.25: 图像正常识别出来的文字是OK的，旋转90度后识别出来的结果就比较差，有什么方法可以优化？

PaddleOCR实战问题

使用咨询

Q3.1.1：OSError： [WinError 126] 找不到指定的模块。mac pro python 3.4 shapely import 问题？

A：这个问题是因为shapely库安装有误，可以参考 #212 这个issue重新安装一下。

Q3.1.2：安装了paddle-gpu，运行时提示没有安装gpu版本的paddle，可能是什么原因?

A：用户同时安装了paddle cpu和gpu版本，都删掉之后，重新安装gpu版本的padle就好了。

Q3.1.3：试用报错：Cannot load cudnn shared library，是什么原因呢？

A：需要把cudnn lib添加到LD_LIBRARY_PATH中去。

Q3.1.4：PaddlePaddle怎么指定GPU运行 os.environ["CUDA_VISIBLE_DEVICES"]这种不生效？

A：通过设置 export CUDA_VISIBLE_DEVICES='0'环境变量。

Q3.1.5：windows下训练没有问题，aistudio中提示数据路径有问题？

A：需要把\改为/（windows和linux的文件夹分隔符不一样，windows下的是\，linux下是/）。

Q3.1.6：gpu版的paddle虽然能在cpu上运行，但是必须要有gpu设备？

A：export CUDA_VISIBLE_DEVICES=''，CPU是可以正常跑的。

Q3.1.7：预测报错ImportError： dlopen： cannot load any more object with static TLS

A：glibc的版本问题，运行需要glibc的版本号大于2.23。

Q3.1.8：提供的inference model和预训练模型的区别？

A：inference model为固化模型，文件中包含网络结构和网络参数，多用于预测部署。预训练模型是训练过程中保存好的模型，多用于fine-tune训练或者断点训练。

Q3.1.9：模型的解码部分有后处理？

A：有的检测的后处理在ppocr/postprocess路径下。

Q3.1.10：PaddleOCR中文模型是否支持数字识别？

A：支持的，可以看下ppocr/utils/ppocr_keys_v1.txt 这个文件，是支持的识别字符列表，其中包含了数字识别。

Q3.1.11：PaddleOCR如何做到横排和竖排同时支持的？

A：合成了一批竖排文字，逆时针旋转90度后加入训练集与横排一起训练。预测时根据图片长宽比判断是否为竖排，若为竖排则将crop出的文本逆时针旋转90度后送入识别网络。

Q3.1.12：如何获取检测文本框的坐标？

A：文本检测的结果有box和文本信息, 具体参考代码。

Q3.1.13：识别模型框出来的位置太紧凑，会丢失边缘的文字信息，导致识别错误？

A：可以在命令中加入 --det_db_unclip_ratio ，参数定义位置，这个参数是检测后处理时控制文本框大小的，默认1.6，可以尝试改成2.5或者更大，反之，如果觉得文本框不够紧凑，也可以把该参数调小。

Q3.1.14：英文手写体识别有计划提供的预训练模型吗?

A：近期也在开展需求调研，如果企业用户需求较多，我们会考虑增加相应的研发投入，后续提供对应的预训练模型，如果有需求欢迎通过issue或者加入微信群联系我们。

Q3.1.15：PaddleOCR的算法可以用于手写文字检测识别吗?后续有计划推出手写预训练模型么？

A：理论上只要有相应的数据集，都是可以的。当然手写识别毕竟和印刷体有区别，对应训练调优策略可能需要适配性优化。

Q3.1.16：PaddleOCR是否支持在Windows或Mac系统上运行？

A：PaddleOCR已完成Windows和Mac系统适配，运行时注意两点：

（1）在快速安装时，如果不想安装docker，可跳过第一步，直接从第二步安装paddle开始。

（2）inference模型下载时，如果没有安装wget，可直接点击模型链接或将链接地址复制到浏览器进行下载，并解压放置到相应目录。

Q3.1.17：PaddleOCR开源的超轻量模型和通用OCR模型的区别？

A：目前PaddleOCR开源了2个中文模型，分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下：

相同点：两者使用相同的算法和训练数据；
不同点：不同之处在于骨干网络和通道参数，超轻量模型使用MobileNetV3作为骨干网络，通用模型使用Resnet50_vd作为检测模型backbone，Resnet34_vd作为识别模型backbone，具体参数差异可对比两种模型训练的配置文件。

模型	骨干网络	检测训练配置	识别训练配置
8.6M超轻量中文OCR模型	MobileNetV3+MobileNetV3	det_mv3_db.yml	rec_chinese_lite_train.yml
通用中文OCR模型	Resnet50_vd+Resnet34_vd	det_r50_vd_db.yml	rec_chinese_common_train.yml

Q3.1.18：如何加入自己的检测算法？

A：1. 在ppocr/modeling对应目录下分别选择backbone，head。如果没有可用的可以新建文件并添加；2. 在ppocr/data下选择对应的数据处理处理方式，如果没有可用的可以新建文件并添加；3. 在ppocr/losses下新建文件并编写loss ；4. 在ppocr/postprocess下新建文件并编写后处理算法； 5. 将上面四个步骤里新添加的类或函数参照yml文件写到配置中。

Q3.1.19：训练的时候报错reader raised an exception，但是具体不知道是啥问题？

A：这个一般是因为标注文件格式有问题或者是标注文件中的图片路径有问题导致的，在tools/train.py文件中有一个test_reader的函数，基于这个去检查一下数据的格式以及标注，确认没问题之后再进行模型训练。

Q3.1.20：PaddleOCR与百度的其他OCR产品有什么区别？

A：PaddleOCR主要聚焦通用ocr，如果有垂类需求，您可以用PaddleOCR+垂类数据自己训练；如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

Q3.1.21：PaddleOCR支持动态图吗？

A：动态图版本正在紧锣密鼓开发中，将于2020年12月16日发布，敬请关注。

Q3.1.22：ModuleNotFoundError: No module named 'paddle.nn'，

A：paddle.nn是Paddle2.0版本特有的功能，请安装大于等于Paddle 2.0.0的版本，安装方式为

python3 -m pip install paddlepaddle-gpu==2.0.0 -i https://mirror.baidu.com/pypi/simple

Q3.1.23： ImportError: /usr/lib/x86_64_linux-gnu/libstdc++.so.6:version CXXABI_1.3.11 not found (required by /usr/lib/python3.6/site-package/paddle/fluid/core+avx.so)

A：这个问题是glibc版本不足导致的，Paddle2.0.0版本对gcc版本和glib版本有更高的要求，推荐gcc版本为8.2，glibc版本2.12以上。如果您的环境不满足这个要求，或者使用的docker镜像为: hub.baidubce.com/paddlepaddle/paddle:latest-gpu-cuda9.0-cudnn7-dev hub.baidubce.com/paddlepaddle/paddle:latest-gpu-cuda9.0-cudnn7-dev，安装Paddle2.0rc版本可能会出现上述错误，2.0版本推荐使用新的docker镜像 paddlepaddle/paddle:latest-dev-cuda10.1-cudnn7-gcc82。或者访问dockerhub获得与您机器适配的镜像。

Q3.1.24: PaddleOCR develop分支和dygraph分支的区别？

A：目前PaddleOCR有四个分支，分别是：

develop：基于Paddle静态图开发的分支，推荐使用paddle1.8 或者2.0版本，该分支具备完善的模型训练、预测、推理部署、量化裁剪等功能，领先于release/1.1分支。
release/1.1：PaddleOCR 发布的第一个稳定版本，基于静态图开发，具备完善的训练、预测、推理部署、量化裁剪等功能。
dygraph：基于Paddle动态图开发的分支，目前仍在开发中，未来将作为主要开发分支，运行要求使用Paddle2.0.0版本。
release/2.0-rc1-0：PaddleOCR发布的第二个稳定版本，基于动态图和paddle2.0版本开发，动态图开发的工程更易于调试，目前支，支持模型训练、预测，暂不支持移动端部署。

如果您已经上手过PaddleOCR，并且希望在各种环境上部署PaddleOCR，目前建议使用静态图分支，develop或者release/1.1分支。如果您是初学者，想快速训练，调试PaddleOCR中的算法，建议尝鲜PaddleOCR dygraph分支。

注意：develop和dygraph分支要求的Paddle版本、本地环境有差别，请注意不同分支环境安装部分的差异。

Q3.1.25: 使用dygraph分支，在docker中训练PaddleOCR的时候，数据路径没有任何问题，但是一直报错reader rasied an exception，这是为什么呢？

A：创建docker的时候，/dev/shm的默认大小为64M，如果使用多进程读取数据，共享内存可能不够，因此需要给/dev/shm分配更大的空间，在创建docker的时候，传入--shm-size=8g表示给/dev/shm分配8g的空间。

Q3.1.26: 在repo中没有找到Lite和PaddleServing相关的部署教程，这是在哪里呢？

A：目前PaddleOCR的默认分支为dygraph，关于Lite和PaddleLite的动态图部署还在适配中，如果希望在Lite端或者使用PaddleServing部署，推荐使用develop分支（静态图）的代码。

Q3.1.27: 如何可视化acc,loss曲线图,模型网络结构图等？

A：在配置文件里有use_visualdl的参数，设置为True即可，更多的使用命令可以参考：VisualDL使用指南。

Q3.1.28: 在使用StyleText数据合成工具的时候，报错ModuleNotFoundError: No module named 'utils.config'，这是为什么呢？

A：有2个解决方案

在StyleText路径下面设置PYTHONPATH：export PYTHONPATH=./
拉取最新的代码

Q3.1.29: PPOCRLabel创建矩形框时只能拖出正方形，如何进行矩形标注？

A：取消勾选：“编辑”-“正方形标注”。

Q3.1.30: Style-Text 如何不文字风格迁移，就像普通文本生成程序一样默认字体直接输出到分割的背景图？

A：使用image_synth模式会输出fake_bg.jpg，即为背景图。如果想要批量提取背景，可以稍微修改一下代码，将fake_bg保存下来即可。要修改的位置： PaddleOCR/synthesisers.py at de3e2e7cd3b8b65ee02d7a41e570fa5b511a3c1d · PaddlePaddle/PaddleOCR · GitHub

Q3.1.31: 怎么输出网络结构以及每层的参数信息？

A：可以使用 paddle.summary，具体参考:https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/api/paddle/hapi/model_summary/summary_cn.html。

Q3.1.32 能否修改StyleText配置文件中的分辨率？

A：StyleText目前的训练数据主要是高度32的图片，建议不要改变高度。未来我们会支持更丰富的分辨率。

Q3.1.33 StyleText是否可以更换字体文件？

A：StyleText项目中的字体文件为标准字体，主要用作模型的输入部分，不能够修改。 StyleText的用途主要是：提取style_image中的字体、背景等style信息，根据语料生成同样style的图片。

Q3.1.34 StyleText批量生成图片为什么没有输出？

A：需要检查以下您配置文件中的路径是否都存在。尤其要注意的是label_file配置。如果您使用的style_image输入没有label信息，您依然需要提供一个图片文件列表。

Q3.1.35 怎样把OCR输出的结果组成有意义的语句呢？

A：OCR输出的结果包含坐标信息和文字内容两部分。如果您不关心文字的顺序，那么可以直接按box的序号连起来。如果需要将文字按照一定的顺序排列，则需要您设定一些规则，对文字的坐标进行处理，例如按照坐标从上到下，从左到右连接识别结果。对于一些有规律的垂类场景，可以设定模板，根据位置、内容进行匹配。例如识别身份证照片，可以先匹配"姓名"，"性别"等关键字，根据这些关键字的坐标去推测其他信息的位置，再与识别的结果匹配。

Q3.1.36 如何识别竹简上的古文？

A：对于字符都是普通的汉字字符的情况，只要标注足够的数据，finetune模型就可以了。如果数据量不足，您可以尝试StyleText工具。而如果使用的字符是特殊的古文字、甲骨文、象形文字等，那么首先需要构建一个古文字的字典，之后再进行训练。

Q3.1.37: 小语种模型只有识别模型，没有检测模型吗？

A：小语种（包括纯英文数字）的检测模型和中文的检测模型是共用的，在训练中文检测模型时加入了多语言数据。https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/models_list_en.md#1-text-detection-model。

Q3.1.38: module 'paddle.distributed' has no attribute ‘get_rank’。

A：Paddle版本问题，请安装2.0版本Paddle：pip install paddlepaddle==2.0.0。

Q3.1.39: 字典中没有的字应该如何标注，是用空格代替还是直接忽略掉？

A：可以直接按照图片内容标注，在编码的时候，会忽略掉字典中不存在的字符。

Q3.1.40: dygraph、release/2.0-rc1-0、release/2.0 这三个分支有什么区别？

A：dygraph是动态图分支，并且适配Paddle-develop，当然目前在Paddle2.0上也可以运行，新特性我们会在这里更新。 release/2.0-rc1-0是基于Paddle 2.0rc1的稳定版本，release/2.0是基于Paddle2.0的稳定版本，如果希望版本或者代码稳定的话，建议使用release/2.0分支，如果希望可以实时拿到一些最新特性，建议使用dygraph分支。

Q3.1.41: style-text 融合模块的输入是生成的前景图像以及背景特征权重吗？

A：目前版本是直接输入两个图像进行融合的，没有用到feature_map，替换背景图片不会影响效果。

Q3.1.42: 训练识别任务的时候，在CPU上运行时，报错The setting of Parameter-Server must has server_num or servers。

A：这是训练任务启动方式不对造成的。

在使用CPU或者单块GPU训练的时候，可以直接使用python3 tools/train.py -c xxx.yml的方式启动。
在使用多块GPU训练的时候，需要使用distributed.launch的方式启动，如python3 -m paddle.distributed.launch --gpus '0,1,2,3' tools/train.py -c xxx.yml，这种方式需要安装NCCL库，如果没有的话会报错。

Q3.1.43：使用StyleText进行数据合成时，文本(TextInput)的长度远超StyleInput的长度，该怎么处理与合成呢？

A：在使用StyleText进行数据合成的时候，建议StyleInput的长度长于TextInput的长度。有2种方法可以处理上述问题：

将StyleInput按列的方向进行复制与扩充，直到其超过TextInput的长度。
将TextInput进行裁剪，保证每段TextInput都稍短于StyleInput，分别合成之后，再拼接在一起。

实际使用中发现，使用第2种方法的效果在长文本合成的场景中的合成效果更好，StyleText中提供的也是第2种数据合成的逻辑。

Q3.1.44: 文字识别训练，设置图像高度不等于32时报错？

A：ctc decode的时候，输入需要是1维向量，因此降采样之后，建议特征图高度为1，ppocr中，特征图会降采样32倍，之后高度正好为1，所以有2种解决方案：

指定输入shape高度为32（推荐）
在backbone的mv3中添加更多的降采样模块，保证输出的特征图高度为1

Q3.1.45: 增大batch_size模型训练速度没有明显提升？

A：如果batch_size打得太大，加速效果不明显的话，可以试一下增大初始化内存的值，运行代码前设置环境变量：

export FLAGS_initial_cpu_memory_in_mb=2000  # 设置初始化内存约2G左右

Q3.1.46: 动态图分支(dygraph,release/2.0)，训练模型和推理模型效果不一致？

A：当前问题表现为：使用训练完的模型直接测试结果较好，但是转换为inference model后，预测结果不一致；出现这个问题一般是两个原因：

预处理函数设置的不一致；
后处理参数不一致， repo中config.yml文件的前后处理参数和inference预测默认的超参数有不一致的地方，建议排查下训练模型预测和inference预测的前后处理，参考issue。

Q3.1.47: paddleocr package 报错 FatalError: Process abort signal is detected by the operating system？

A：首先，按照安装文档安装PaddleOCR的运行环境；另外，检查python环境，python3.6/3.8上可能会出现这个问题，建议用python3.7，参考issue。

Q3.1.48: 下载的识别模型解压后缺失文件，没有期望的inference.pdiparams, inference.pdmodel等文件？

A：用解压软件解压可能会出现这个问题，建议二次解压下或者用命令行解压tar xf。

Q3.1.49: 只想要识别票据中的部分片段，重新训练它的话，只需要训练文本检测模型就可以了吗？问文本识别，方向分类还是用原来的模型这样可以吗？

A：可以的。PaddleOCR的检测、识别、方向分类器三个模型是独立的，在实际使用中可以优化和替换其中任何一个模型。

Q3.1.50: 为什么在checkpoints中load下载的预训练模型会报错？

A: 这里有两个不同的概念：

pretrained_model：指预训练模型，是已经训练完成的模型。这时会load预训练模型的参数，但并不会load学习率、优化器以及训练状态等。如果需要finetune，应该使用pretrained。
checkpoints：指之前训练的中间结果，例如前一次训练到了100个epoch，想接着训练。这时会load尝试所有信息，包括模型的参数，之前的状态等。

这里应该使用pretrained_model而不是checkpoints。

Q3.1.51: 如何用PaddleOCR识别视频中的文字？

A: 目前PaddleOCR主要针对图像做处理，如果需要视频识别，可以先对视频抽帧，然后用PPOCR识别。

Q3.1.52: 相机采集的图像为四通道，应该如何处理？

A: 有两种方式处理：

如果没有其他需要，可以在解码数据的时候指定模式为三通道，例如如果使用opencv，可以使用cv::imread(img_path, cv::IMREAD_COLOR)。
如果其他模块需要处理四通道的图像，那也可以在输入PaddleOCR模块之前进行转换，例如使用cvCvtColor(&img,img3chan,CV_RGBA2RGB)。

Q3.1.53: 预测时提示图像过大，显存、内存溢出了，应该如何处理？

A: 可以按照这个PR的修改来缓解显存、内存占用 #2230。

Q3.1.54: 用c++来部署，目前支持Paddle2.0的模型吗？

A: PPOCR 2.0的模型在arm上运行可以参照该PR #1877。

Q3.1.55: 目前PaddleOCR有知识蒸馏的demo吗？

A：目前我们还没有提供PaddleOCR知识蒸馏的相关demo，PaddleClas开源了一个效果还不错的方案，可以移步SSLD知识蒸馏方案， paper: https://arxiv.org/abs/2103.05959 关于PaddleOCR的蒸馏，我们也会在未来支持。

Q3.1.56: 在使用PPOCRLabel的时候，如何标注倾斜的文字？

A: 如果矩形框标注后空白冗余较多，可以尝试PPOCRLabel提供的四点标注，可以标注各种倾斜角度的文本。

Q3.1.57: 端到端算法PGNet提供了两种后处理方式，两者之间有什么区别呢？

A: 两种后处理的区别主要在于速度的推理，config中PostProcess有fast/slow两种模式，slow模式的后处理速度慢，精度相对较高，fast模式的后处理速度快，精度也在可接受的范围之内。建议使用速度快的后处理方式。

Q3.1.58: 使用PGNet进行eval报错？

A: 需要注意，我们目前在release/2.1更新了评测代码，目前支持A，B两种评测模式：

A模式：该模式主要为了方便用户使用，与训练集一样的标注文件就可以正常进行eval操作, 代码中默认是A模式。
B模式：该模式主要为了保证我们的评测代码可以和Total Text官方的评测方式对齐，该模式下直接加载官方提供的mat文件进行eval。

Q3.1.59: 使用预训练模型进行预测，对于特定字符识别识别效果较差，怎么解决？

A: 由于我们所提供的识别模型是基于通用大规模数据集进行训练的，部分字符可能在训练集中包含较少，因此您可以构建特定场景的数据集，基于我们提供的预训练模型进行微调。建议用于微调的数据集中，每个字符出现的样本数量不低于300，但同时需要注意不同字符的数量均衡。具体可以参考：微调。

Q3.1.60: PGNet有中文预训练模型吗？

A: 目前我们尚未提供针对中文的预训练模型，如有需要，可以尝试自己训练。具体需要修改的地方有：

config文件中，字典文件路径及语种设置；
网络结构中，out_channels修改为字典中的字符数目+1（考虑到空格）；
loss中，修改37为字典中的字符数目+1（考虑到空格）；

Q3.1.61: 用于PGNet的训练集，文本框的标注有要求吗？

A: PGNet支持多点标注，比如4点、8点、14点等。但需要注意的是，标注点尽可能分布均匀（相邻标注点间隔距离均匀一致），且label文件中的标注点需要从标注框的左上角开始，按标注点顺时针顺序依次编写，以上问题都可能对训练精度造成影响。我们提供的，基于Total Text数据集的PGNet预训练模型使用了14点标注方式。

Q3.1.62: 弯曲文本（如略微形变的文档图像）漏检问题？

A: db后处理中计算文本框平均得分时，是求rectangle区域的平均分数，容易造成弯曲文本漏检，已新增求polygon区域的平均分数，会更准确，但速度有所降低，可按需选择，在相关pr中可查看可视化对比效果。该功能通过参数 det_db_score_mode进行选择，参数值可选[fast(默认)、slow]，fast对应原始的rectangle方式，slow对应polygon方式。感谢用户buptlihang提pr帮助解决该问题。

Q3.1.63: 请问端到端的pgnet相比于DB+CRNN在准确率上有优势吗？或者是pgnet最擅长的场景是什么场景呢？

A: pgnet是端到端算法，检测识别一步到位，不用分开训练2个模型，也支持弯曲文本的识别，但是在中文上的效果还没有充分验证；db+crnn的验证更充分，应用相对成熟，常规非弯曲的文本都能解的不错。

Q3.1.64: config yml文件中的ratio_list参数的作用是什么？

A: 在动态图中，ratio_list在有多个数据源的情况下使用，ratio_list中的每个值是每个epoch从对应数据源采样数据的比例。如ratio_list=[0.3,0.2]，label_file_list=['data1','data2'],代表每个epoch的训练数据包含data1 30%的数据，和data2里 20%的数据，ratio_list中数值的和不需要等于1。ratio_list和label_file_list的长度必须一致。

静态图检测数据采样的逻辑与动态图不同，但基本不影响训练精度。

在静态图中，使用检测 dataloader读取数据时，会先设置每个epoch的数据量，比如这里设置为1000，ratio_list中的值表示在1000中的占比，比如ratio_list是[0.3, 0.7]，则表示使用两个数据源，每个epoch从第一个数据源采样1000*0.3=300张图，从第二个数据源采样700张图。ratio_list的值的和也不需要等于1。

Q3.1.65: 支持动态图模型的android和ios demo什么时候上线？？

A: 支持动态图模型的android demo已经合入dygraph分支，欢迎试用（https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/deploy/android_demo/README.md）; ios demo暂时未提供动态图模型版本，可以基于静态图版本（https://github.com/PaddlePaddle/PaddleOCR/blob/develop/deploy/ios_demo）自行改造。

Q3.1.66: iaa里面添加的数据增强方式，是每张图像训练都会做增强还是随机的？如何添加一个数据增强方法？

A：iaa增强的训练配置参考：https://github.com/PaddlePaddle/PaddleOCR/blob/0ccc1720c252beb277b9e522a1b228eb6abffb8a/configs/det/ch_ppocr_v2.0/ch_det_mv3_db_v2.0.yml#L82，其中{ 'type': Fliplr, 'args': { 'p': 0.5 } } p是概率。新增数据增强，可以参考这个方法：https://github.com/PaddlePaddle/PaddleOCR/blob/release%2F2.1/doc/doc_ch/add_new_algorithm.md#%E6%95%B0%E6%8D%AE%E5%8A%A0%E8%BD%BD%E5%92%8C%E5%A4%84%E7%90%86

你可能感兴趣的:(PaddlePaddle,paddleocr)

「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
PaddleOCR 3.0全面解析：五大核心能力与实战应用指南经优英
PaddleOCR3.0全面解析：五大核心能力与实战应用指南PaddleOCRAwesomemultilingualOCRtoolkitsbasedonPaddlePaddle(practicalultralightweightOCRsystem,support80+languagesrecognition,providedataannotationandsynthesistools,suppor
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
paddleOCR模型的安装和使用九日卯贝 paddle ocr
paddleOCR仓库：https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file文档：https://paddlepaddle.github.io/PaddleOCR/main/quick_start.html#2-paddleocr环境安装python-mpipinstallpaddlepaddle-gpu==3.0.0b1-iht
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
PaddleOCR不同模型和Paddle版本推理性能对比 dotNET跨平台 paddle
飞桨PaddleOCR这几年发布了从V2到V5的中英文OCR模型，Paddle推理框架也从2.X升级到3.0.0版本。本次对不同模型和推理框架的性能做些对比。测试条件：操作系统：win10X64CPU:13thGenIntel(R)Core(TM)i9-13900HF3.0GHz24核32线程CPU指令集：AVX,AVX2测试基于PaddleOCRSharp的C++版本SDK：https://gi
ali docker部属paddleocr 大熊程序猿 ASP.NET Core docker 容器运维
dockerpullregistry.baidubce.com/paddlepaddle/paddle:2.6.0nano/root/projects/paddleocr_server.py========================fromflaskimportFlask,requestfromwerkzeug.utilsimportsecure_filenameimportuuidfrom
基于PaddleOCR的表格识别系统开发 pk_xz123456 仿真模型深度学习算法深度学习开发语言分类安全 cnn
基于PaddleOCR的表格识别系统开发1.项目概述本项目旨在使用PaddleOCR框架开发一个高性能的表格识别系统，能够准确识别约30种不同类型的表格结构。系统将处理2500张合成表格图像作为训练数据，并在合成测试集上进行评估。系统核心功能包括表格检测、表格结构识别和表格内容识别三部分。1.1项目背景表格是信息传递的重要载体，广泛存在于各类文档中。传统表格识别方法需要复杂的规则和模板，而基于深度
OpenVINO™2025部署PaddleOCR模型 OpenVINO 中文社区经验分享
PaddleOCR模型下载OpenVINO™2025支持直接加载paddle的模型。所以可以直接先从官网直接下载PaddleOCRv5.0的模型：文本检测模型下载地址#DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer
PaddleOCR + Flask 构建 Web OCR 服务实战随风九天服务 flask 前端 ocr PaddleOCR
1、前言随着图像识别技术的发展，OCR（光学字符识别）已经成为很多应用场景中的基础能力。PaddleOCR是百度开源的一个高性能OCR工具库，支持中英文、多语言、轻量级部署等特性。而Flask是一个轻量级的PythonWeb框架，非常适合快速构建RESTfulAPI或小型Web应用。本文将带你一步步使用PaddleOCR+Flask搭建一个完整的WebOCR服务，实现图片上传→文字识别→返回结构化
百度飞桨（PaddlePaddle）案例分享：基于 PaddleOCR 的图像文字提取系统 univerbright 百度 paddlepaddle 人工智能 paddleocr 图像文字提取
一、案例背景在实际教学、办公及政务系统中，纸质材料（如手写作文、表格、试卷等）仍广泛存在。为提升信息处理效率，采用OCR（OpticalCharacterRecognition）技术将图像中的文字提取为可编辑文本已成为刚需。本项目基于开源深度学习库PaddleOCR，构建了一个轻量级的图像文字识别工具，能够自动识别图像中的中文文本，并提供置信度评估和可视化支持。该工具特别适用于作业扫描图像中的内容
paddleocr 和 pytesseract 使用记录 tnan2522 python 基础高级其他 python
paddleocr和pytesseract都是常见的ocr模块，不同的是，paddleocr是百度开源的一个ocr识别库，pytesseract基于TesseractOCR引擎封装的pythonocr库，在基础使用过程中，发现paddleocr比pytesseract要慢，而且内存占用更大，在识别中会持续缓存内存，直到占用到某个大小后，后续识别的图片才不会占用内存paddleocrimportco
C++/OpenCV 图像预处理与 PaddleOCR 结合进行高效字符识别 whoarethenext c++opencv 开发语言
C++/OpenCV图像预处理与PaddleOCR结合进行高效字符识别在许多实际应用场景中，直接从原始图片中提取文字的准确率可能不尽人意。图像中的噪声、光照不均、角度倾斜等问题都会严重干扰OCR(OpticalCharacterRecognition)引擎的识别效果。本文将详细介绍如何利用C++和强大的计算机视觉库OpenCV对图像进行预处理，然后将处理后的图像送入PaddleOCR的C++预测库
视觉模型部署实践：低算力平台RV1106上高效部署paddlepaddle 的PicoDet目标检测模型的技术实践位东风视觉模型部署实践 paddlepaddle 目标检测人工智能 iot 物联网嵌入式硬件
在资源受限的嵌入式设备上实现高精度、低延迟的目标检测，是当前智能摄像头、边缘计算等应用中的关键挑战。本文以Rockchip的RV1106嵌入式平台为例，结合百度开源的轻量级检测模型PicoDet，探讨如何通过模型优化与硬件加速，在有限的计算资源下实现高效的实时目标检测。目前该模型测试可以达到25fps左右一、背景介绍1.1RV1106硬件特性主频：1.2GHzArmCortex-A55CPU内存：
使用PaddleOCR读取pdf内容，输出txt文本只有左边一个小酒窝 Paddle pdf paddle 人工智能
使用PaddleOCR读取PDF内容并输出为TXT文本，可以通过以下步骤实现。PaddleOCR是一个基于PaddlePaddle的OCR工具，支持多种语言的文本识别。一、安装依赖确保已安装PaddleOCR和相关的依赖库。以下是代码中涉及的依赖库及其功能说明：os所属语言：Python内置标准库功能：提供操作系统相关功能，如文件路径操作、目录管理等。示例用途：在处理文件时获取路径、创建目录等。f
DeepSeek 本身并不直接支持 PDF 和图片文字的识别 Leon_Jinhai_Sun pdf
DeepSeek本身并不直接支持PDF和图片文字的识别，但可以通过结合外部工具（如OCR工具和PDF解析库）来实现这一功能。以下是详细的Python代码示例，展示如何将PDF和图片中的文字转换为文本内容。1.实现思路PDF文件：对于文本型PDF，使用PDF解析库（如PyMuPDF）直接提取文字。对于扫描件或图像型PDF，使用OCR工具（如PaddleOCR）提取文字。图片文件：使用OCR工具（如P
【GitHub项目推荐--OCR 图片转文字识别软件】【转载】旅之灵夫 GitHub项目推荐工具 ocr
Umi-OCR基于PaddleOCR的OCR图片转文字软件，已经获得3.6K的Star。该开源项目完全离线，支持截屏/批量导入图片，除了能准确辨认常规文字，对手写、方向不正、杂乱背景等情景也有不错的识别率。可设置忽略区域排除水印、设置文块后处理合并排版段落，得到规整的文本。开源地址：https://github.com/hiroi-sora/Umi-OCRTesseract开源OCR引擎（主存储库
如何制作属于自己的图片OCR功能 hit56笔记机器学习
文章目录一、百度的PaddlePaddle二、一个开源软件三、谷歌的OCR实践方案1.安装软件包2.安装语言包3.运行代码三、facebook的抠图模型四、参考文献经过本人的多次实践探索，已上线至我的网站：www.hit56.com，可以在上面直接体验图片OCR功能一、百度的PaddlePaddlehttps://github.com/PaddlePaddle/PaddleOCR二、一个开源软件h
基于python部署paddleocrv5的onnx模型PPOCRv5模型部署源码+onnx模型+使用说明 FL1623863129 深度学习 python 开发语言
1.项目简介本项目是PaddleOCRv5的ONNX版本实现，具有以下特点：支持简体中文、繁体中文、中文拼音、英文和日文识别无需深度学习训练框架，可直接部署使用支持ARM和x86架构高性能推理，识别速度快识别精度与PaddleOCR保持一致2.环境要求Python>=3.8CUDA支持（如果使用GPU版本，需要GPU版本onnxruntime和对应cuda安装）足够的磁盘空间（建议至少2GB可用空
dockerfile: PaddleOCR hubserving api 服务 Grassto docker docker ocr paddleocr
前言目前OCR有比较成熟的方案，想着直接通过docker部署一个提供api接口服务，查看了一些开源方案，最终发现还是PaddleOCR比较好用。本篇不介绍PaddleOCR的详细使用方式，只介绍一下构建镜像的dockerfile需要注意的事项。docker镜像构建目录结构-inference_models(下载好的模型放这里，可以直接在dockerfile中下载)-PaddleOCR(git仓库，
ai之pdf解析工具 PPStructure 还是PaddleOCR 不懂球的小胖 ai python pdf ai python
目录重点是四先用PPStructure版面分析，分成不同的块儿，再选用PaddleOCR、或PPStructure基础路径OCR模型配置OCR模型配置GPU配置硬件配置性能配置一、框架选型对比分析1.**PaddleOCR核心能力**2.**PP-Structure核心能力**3.**选型结论**二、错误根因分析与修复方案1.**错误现象**2.**深层原因**3.**修复方案三、性能优化建议1.
百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13% 吴脑的键客人工智能百度 paddlepaddle ocr
百度飞桨PaddleOCR3.0开源发布2025年5月20日，百度飞桨团队正式发布了PaddleOCR3.0版本，并将其开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展，进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。开源地址:https://github.com/PaddlePaddle/PaddleOCR技术亮点全场景文字识别模型PP
Python、PyTorch、TensorFlow和飞桨（PaddlePaddle）的核心介绍及对比非小号 AI python pytorch tensorflow
以下是Python、PyTorch、TensorFlow和飞桨（PaddlePaddle）的核心介绍及对比，帮助你快速理解它们的定位与适用场景：一、Python：AI开发的基石语言定位：通用高级编程语言，以简洁语法和丰富库生态著称。核心优势：易学易用：代码可读性强，适合快速原型开发。生态丰富：拥有NumPy（科学计算）、Pandas（数据处理）、Matplotlib（可视化）等基础库，以及Scik
paddle 打包代码 ocr qq_wuqingdefeng paddle ocr
1，部署开发环境(ppoc)H:\work\daodan_move\PaddleOCR-main>piplistPackageVersion------------------------------------aiofiles24.1.0aiohappyeyeballs2.6.1aiohttp3.11.18aiosignal1.3.2albucore0.0.13albumentations1.4
飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）非小号 AI paddlepaddle 机器学习人工智能
以下是飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）中常用的模型、函数及工具链，结合其生态特点分类说明：一、数据采集与标注1.数据采集工具PaddleX（图像/视频场景）功能：支持图像分类、目标检测、语义分割任务的数据标注，集成标注工具（如矩形框、多边形标注）。官网工具：PaddleX数据标注工具用法：通过图形化界面或命令行启动标注工具，输出标准VOC/
通过paddlehub简单几行代码实现OCR识别 bobfreedman AI ocr
一、前置条件1、ubuntu系统2、python3、pip已经安装完毕3、paddlepaddle、paddlehub、cv2、gradio、matplotlib安装完毕二、实现代码ocr.pyimportpaddlehubashubimportmatplotlib.pyplotaspltimportmatplotlib.imageasmpimgimportgradioasgrimportcv2o
PaddleHub一键OCR中文识别 jiabiao1602 ocr
PaddleHub是百度飞桨（PaddlePaddle）深度学习框架下的一个预训练模型应用工具，它为用户提供了丰富的高质量预训练模型和便捷的开发方式。这里我们仅介绍其在OCR中文识别方面的应用。一、PaddleHub介绍先让文心一言给我们介绍PaddleHub，以下是文心一言的答案。PaddleHub是百度飞桨（PaddlePaddle）深度学习框架下的一个预训练模型应用工具，它为用户提供了丰富的
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio