m0_68949064

PaddleOCR详解和识别图片中文字

前言：paddleocr可以说是最近ocr的主⼒军，⼤家对于paddleocr的认可度是相当的⾼，特别是最近推出的轻量级模型，可以识别近80种语⾔，并且效率是这三种ocr工具种最⾼的，相同的图⽚，paddleocr只需要2秒左右。对于多场景的⼩语种需求，需要再多多训练模型。paddleocr最⼤的好处是⽂档健全，⽀持自己训练模型，所以对于⽹上⼤多数的⽂章来说有很多使⽤者已经基于这个平台开始训练自己的模型，使⽤场景⾮常⼴泛。

一、介绍

1、什么是OCR?

2、 PaddleOCR

2.1 PP-OCR简介和特点

2.2 特点

3、模型训练

3.1 文本检测

3.2 文本识别

3.1 文字方向分类

二、安装和使用

1、安装

2、python 识别图片文字

一、介绍

1、什么是OCR?

光学字符识别（Optical Character Recognition, OCR），ORC是指对包含文本资料的图像文件进行分析识别处理，获取文字及版面信息的技术，检测图像中的文本资料，并且识别出文本的内容。

那么有哪些应用场景呢？

其实我们日常生活中处处都有ocr的影子，比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中，机器学习已经越来越多的扮演着重要角色，也不再是神秘的东西。

OCR的技术路线是什么呢？

ocr的运行方式：输入->图像预处理->文字检测->文本识别->输出

2、 PaddleOCR

PaddleOCR支持多种与OCR相关的前沿算法，并在此基础上开发了行业特色模型/解决方案PP-OCR和PP-Structure，打通了数据生产、模型训练、压缩、推理和部署的全流程。

PaddleOCR分为文本检测、文本识别和方向分类器三部分，其中文本检测有三个模型，分别是MobileNetV3、ResNet18_vd和ResNet50，其中最常使用的是MobileNetV3模型，整体比较小，适合应用于手机端。文本识别只有一个MobileNetV3预训练模型。方向分类器使用默认的模型。

2.1 PP-OCR简介和特点

PP-OCR是自主研发的一款实用的超轻量级OCR系统，在重新实现学术算法的基础上，兼顾精度和速度的平衡，进行了精简和优化。

PP-OCRv2系统输送管道如下：

PP-OCR

PP-OCR是一个两阶段的OCR系统，其中文本检测算法为DB，文本识别算法为CRNN。此外，在检测和识别模块之间增加了一个文章方向分类器来处理不同方向的文本。

PP-OCR从骨干网络选择与调整、预测头设计、数据增强、学习率转换策略、正则化参数选择、预训练模型使用、模型自动剪裁与量化等8个方面采用19种有效策略进行优化瘦身每个模块的型号（如上图绿色框所示）。最终的结果是一个整体大小为3.5M的超轻量级中英文OCR模型和一个2.8M的英文数字OCR模型。

PP-OCRv2

在PP-OCR的基础上，PP-OCRv2在五个方面进一步优化。检测模型采用CML(Collaborative Mutual Learning)知识蒸馏策略和CopyPaste数据扩展策略。识别模型采用LCNet轻量级骨干网络、U-DML知识蒸馏策略和增强的CTC损失函数改进（如上图红框所示），进一步提升了推理速度和预测效果。

PP-OCRv3

PP-OCRv3在PP-OCRv2的基础上对检测模型和识别模型进行了9个方面的升级：

PP-OCRv3检测器对PP-OCRv2中提出的CML(Collaborative Mutual Learning)文本检测策略进行了升级，进一步优化了教师模型和学生模型的效果。在教师模型的优化中，提出了一个大感受野的泛模块LK-PAN，并采用了DML蒸馏策略；在学生模型的优化中，提出了一种带有残差注意机制的FPN模块RSE-FPN。
PP-OCRv3 识别器基于文本识别算法SVTR进行了优化。SVTR通过引入transformers结构不再采用RNN，可以更有效地挖掘文本行图像的上下文信息，从而提高文本识别能力。PP-OCRv3采用轻量级文本识别网络SVTR_LCNet，通过attention引导训练CTC，数据增强策略TextConAug，通过自监督TextRotNet、UDML（Unified Deep Mutual Learning）和UIM（Unlabeled Images Mining）进行更好的预训练模型来加速模型并提高效果。

2.2 特点

超轻量级PP-OCRv3系列机型：检测（3.6M）+方向分类器（1.4M）+识别12M）=17.0M
超轻量级PP-OCRv2系列机型：检测（3.1M）+方向分类器（1.4M）+识别8.5M）=13.0M
超轻量级PP-OCR移动系列机型：检测（3.0M）+方向分类器（1.4M）+识别（5.0M）=9.4M
一般PP-OCR服务器系列机型：检测（47.1M）+方向分类器（1.4M）+识别（94.9M）=143.4M
支持中文、英文、数字识别、竖排文本识别、长文本识别
支持多语言识别：韩语、日语、德语、法语等约80种语言

3、模型训练

3.1 文本检测

1）数据和权重准备

1.1）数据准备

要准备数据集，请参阅ocr_datasets。

1.2）下载预训练模型

首先下载预训练模型。PaddleOCR 的检测模型目前支持 3 个主干，分别是 MobileNetV3、ResNet18_vd 和 ResNet50_vd。您可以根据需要使用PaddleClas中的模型来替换骨干。并且骨干预训练权重的响应下载链接可以在（https://github.com/PaddlePaddle/PaddleClas/blob/release%2F2.0/README_cn.md#resnet%E5%8F%8A%E5% 85%B6vd%E7%B3%BB%E5%88%97）。

cd PaddleOCR/
# Download the pre-trained model of MobileNetV3
wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/MobileNetV3_large_x0_5_pretrained.pdparams
# or, download the pre-trained model of ResNet18_vd
wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/ResNet18_vd_pretrained.pdparams
# or, download the pre-trained model of ResNet50_vd
wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/ResNet50_vd_ssld_pretrained.pdparams

2）培训

2.1）开始训练

如果安装了 CPU 版本，请在配置中将参数设置use_gpu为false。

python3 tools/train.py -c configs/det/det_mv3_db.yml  \
         -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained

在上面的说明中，使用-c选择训练使用configs/det/det_db_mv3.yml配置文件。配置文件的详细解释请参考config。

您也可以-o在不修改 yml 文件的情况下更改训练参数。例如，将训练学习率调整为 0.0001

# single GPU training
python3 tools/train.py -c configs/det/det_mv3_db.yml -o   \
         Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained  \
         Optimizer.base_lr=0.0001

# multi-GPU training
# Set the GPU ID used by the '--gpus' parameter.
python3 -m paddle.distributed.launch --gpus '0,1,2,3'  tools/train.py -c configs/det/det_mv3_db.yml -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained

# multi-Node, multi-GPU training
# Set the IPs of your nodes used by the '--ips' parameter. Set the GPU ID used by the '--gpus' parameter.
python3 -m paddle.distributed.launch --ips="xx.xx.xx.xx,xx.xx.xx.xx" --gpus '0,1,2,3' tools/train.py -c configs/det/det_mv3_db.yml \
     -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained

注意：多节点多GPU训练，需要将ips前面命令中的值替换为自己机器的地址，并且机器之间要能ping通。此外，当我们开始训练时，它需要在多台机器上分别激活命令。查看机器IP地址的命令是ifconfig。

如果想进一步加快训练速度，可以使用自动混合精度训练。对于单卡训练，命令如下：

python3 tools/train.py -c configs/det/det_mv3_db.yml \
     -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained \
     Global.use_amp=True Global.scale_loss=1024.0 Global.use_dynamic_loss_scaling=True

2.2）加载训练好的模型并继续训练

如果您希望加载训练好的模型并再次继续训练，您可以将参数指定Global.checkpoints为要加载的模型路径。

例如：

python3 tools/train.py -c configs/det/det_mv3_db.yml -o Global.checkpoints=./your/trained/model

注意：的优先级Global.checkpoints高于Global.pretrained_model，即同时指定两个参数时，Global.checkpoints会先加载指定的模型。如果指定的模型路径Global.checkpoints错误，Global.pretrained_model将加载指定的模型路径。

2.3）新骨干训练

network部分完成了网络的搭建，PaddleOCR将网络分为四个部分，分别在ppocr/modeling下。进入网络的数据会依次经过这四个部分（transforms->backbones->ecks->heads）。

├── architectures # Code for building network
├── transforms    # Image Transformation Module
├── backbones     # Feature extraction module
├── necks         # Feature enhancement module
└── heads         # Output module

如果要替换的Backbone在PaddleOCR中有对应的实现，可以直接修改Backbone配置yml文件部分的参数。

但是，如果您想使用新的 Backbone，更换主干的示例如下：

在ppocr/modeling/backbones文件夹下新建一个文件，例如 my_backbone.py。
在my_backbone.py文件中添加代码，示例代码如下：

import paddle
import paddle.nn as nn
import paddle.nn.functional as F


class MyBackbone(nn.Layer):
    def __init__(self, *args, **kwargs):
        super(MyBackbone, self).__init__()
        # your init code
        self.conv = nn.xxxx

    def forward(self, inputs):
        # your network forward
        y = self.conv(inputs)
        return y

在ppocr/modeling/backbones/_ init_ .py文件中导入添加的模块。

添加网络的四部分模块后，只需要在配置文件中配置即可使用，如：

  Backbone:
    name: MyBackbone
    args1: args1

注意：有关替换 Backbone 和其他 mudule 的更多详细信息可以在doc中找到。

2.4）混合精度训练

如果想进一步加快训练速度，可以使用Auto Mixed Precision Training，以单机单gpu为例，命令如下：

python3 tools/train.py -c configs/det/det_mv3_db.yml \
     -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained \
     Global.use_amp=True Global.scale_loss=1024.0 Global.use_dynamic_loss_scaling=True

2.5）分布式训练

多机多gpu训练时，使用--ips参数设置使用的机器IP地址，使用--gpus参数设置使用的GPU ID：

python3 -m paddle.distributed.launch --ips="xx.xx.xx.xx,xx.xx.xx.xx" --gpus '0,1,2,3' tools/train.py -c configs/det/det_mv3_db.yml \
     -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained

注意：使用多机多gpu训练时，需要将上面命令中的ips值替换为自己机器的地址，机器需要能够互相ping通。此外，训练需要在多台机器上单独启动。查看机器ip地址的命令是ifconfig。

2.6）知识蒸馏训练

PaddleOCR 支持知识蒸馏，用于文本检测训练过程。有关详细信息，请参阅文档。

2.7）其他平台训练（Windows/macOS/Linux DCU）

Windows GPU/CPU Windows平台与Linux平台略有不同：Windows平台只支持single gpu训练和推理，训练指定GPUset CUDA_VISIBLE_DEVICES=0 在Windows平台上，DataLoader只支持单进程模式，所以需要设置num_workers为0；
不支持macOS GPU模式，需要use_gpu在配置文件中设置为False，其余训练评估预测命令与Linux GPU完全相同。
Linux DCU 在 DCU 设备上运行需要设置环境变量export HIP_VISIBLE_DEVICES=0,1,2,3，其余训练和评估预测命令与 Linux GPU 完全相同。

3.) 评估与测试

3.10 评价

PaddleOCR 计算了三个指标来评估 OCR 检测任务的性能：Precision、Recall 和 Hmean(F-Score)。

运行以下代码计算评价指标。结果将保存在save_res_path配置文件中指定的测试结果文件中det_db_mv3.yml

评估时，设置后处理参数box_thresh=0.6, unclip_ratio=1.5. 如果您使用不同的数据集、不同的模型进行训练，则应调整这两个参数以获得更好的结果。

Global.save_model_dir训练时的模型参数默认保存在该目录下。评估指标时，需要设置Global.checkpoints指向保存的参数文件。

python3 tools/eval.py -c configs/det/det_mv3_db.yml  -o Global.checkpoints="{path/to/weights}/best_accuracy" PostProcess.box_thresh=0.6 PostProcess.unclip_ratio=1.5

注意：box_thresh和unclip_ratio是DB后处理所需的参数，在评估EAST和SAST模型时不需要设置。

3.2 测试

在单张图片上测试检测结果：

python3 tools/infer_det.py -c configs/det/det_mv3_db.yml -o Global.infer_img="./doc/imgs_en/img_10.jpg" Global.pretrained_model="./output/det_db/best_accuracy"

测试DB模型时，调整后处理阈值：

python3 tools/infer_det.py -c configs/det/det_mv3_db.yml -o Global.infer_img="./doc/imgs_en/img_10.jpg" Global.pretrained_model="./output/det_db/best_accuracy"  PostProcess.box_thresh=0.6 PostProcess.unclip_ratio=2.0

测试文件夹中所有图片的检测结果：

python3 tools/infer_det.py -c configs/det/det_mv3_db.yml -o Global.infer_img="./doc/imgs_en/" Global.pretrained_model="./output/det_db/best_accuracy"

4.) 推理

推理模型（保存的模型paddle.jit.save）一般是模型训练完成后保存的固化模型，多用于部署中的预测。

训练过程中保存的模型是checkpoints模型，保存了模型的参数，多用于恢复训练。

与检查点模型相比，推理模型会额外保存模型的结构信息。因此，由于模型结构和模型参数已经固化在推理模型文件中，因此更易于部署，适合与实际系统集成。

首先，我们可以将 DB 训练模型转换为推理模型：

python3 tools/export_model.py -c configs/det/det_mv3_db.yml -o Global.pretrained_model="./output/det_db/best_accuracy" Global.save_inference_dir="./output/det_db_inference/"

检测推理模型预测：

python3 tools/infer/predict_det.py --det_algorithm="DB" --det_model_dir="./output/det_db_inference/" --image_dir="./doc/imgs/" --use_gpu=True

如果是其他检测算法，比如EAST，需要将det_algorithm参数修改为EAST，默认为DB算法：

python3 tools/infer/predict_det.py --det_algorithm="EAST" --det_model_dir="./output/det_db_inference/" --image_dir="./doc/imgs/" --use_gpu=True

3.2 文本识别

1.）数据准备

1.1）数据集准备

要准备数据集，请参阅ocr_datasets。

PaddleOCR 提供了用于训练 icdar2015 数据集的标签文件，可以通过以下方式下载：

# Training set label
wget -P ./train_data/ic15_data  https://paddleocr.bj.bcebos.com/dataset/rec_gt_train.txt
# Test Set Label
wget -P ./train_data/ic15_data  https://paddleocr.bj.bcebos.com/dataset/rec_gt_test.txt

PaddleOCR还提供了数据格式转换脚本，可以将ICDAR官网标签转换为PaddleOCR支持的数据格式。数据转换工具在ppocr/utils/gen_label.py，这里以训练集为例：

# convert the official gt to rec_gt_label.txt
python gen_label.py --mode="rec" --input_path="{path/of/origin/label}" --output_label="rec_gt_label.txt"

数据格式如下，（a）为原始图片，（b）为每张图片对应的Ground Truth文本文件：

多语言数据集

多语言模型训练方法与中文模型相同。训练数据集是 100w 个合成数据。可以使用以下两种方法下载少量字体和测试数据。

百度网盘，提取码：frgi。
谷歌驱动器

1.2）字典

最后，需要提供一个字典（{word_dict_name}.txt），以便在模型训练时，所有出现的字符都可以映射到字典索引。

因此，字典需要包含您希望正确识别的所有字符。{word_dict_name}.txt 需要按如下格式写入，并以utf-8编码格式保存：

l
d
a
d
r
n

在word_dict.txt中，每行有一个单词，将字符和数字索引映射在一起，例如“and”将映射到 [2 5 1]

PaddleOCR 内置字典，可按需使用。

ppocr/utils/ppocr_keys_v1.txt是一本6623字的汉语词典。

ppocr/utils/ic15_dict.txt是一本有 63 个字符的英文字典

ppocr/utils/dict/french_dict.txt是一个有 118 个字符的法语词典

ppocr/utils/dict/japan_dict.txt是一个有 4399 个字符的日语字典

ppocr/utils/dict/korean_dict.txt是一个包含 3636 个字符的韩语词典

ppocr/utils/dict/german_dict.txt是一个有 131 个字符的德语词典

ppocr/utils/en_dict.txt是一本有 96 个字符的英文字典

目前多语言模型仍处于演示阶段，将继续优化模型并添加语言。非常欢迎您向我们提供其他语言的字典和字体，如果您愿意，可以将字典文件提交给dict，我们将在 Repo 中感谢您。

要自定义 dict 文件，请修改character_dict_path.configs/rec/rec_icdar15_train.yml

自定义词典

如果您需要自定义 dic 文件，请在 configs/rec/rec_icdar15_train.yml 中添加 character_dict_path 字段以指向您的字典路径。并将 character_type 设置为 ch。

1.4）添加空间类别

如果要支持space分类识别，请将use_space_charyml文件中的字段设置为True.

1.5）数据增强

PaddleOCR 提供了多种数据增强方法。默认情况下启用所有增强方法。

默认的扰动方法是：cvtColor、模糊、抖动、Gasuss 噪声、随机裁剪、透视、颜色反转、TIA 增强。

在训练过程中以 40% 的概率选择每种干扰方法。具体代码实现请参考：rec_img_aug.py

2.）培训

PaddleOCR 提供训练脚本、评估脚本和预测脚本。本节将以 CRNN 识别模型为例：

2.1）开始训练

首先下载pretrain模型，可以下载训练好的模型在icdar2015数据上进行finetune：

cd PaddleOCR/
# Download the pre-trained model of en_PP-OCRv3
wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_train.tar
# Decompress model parameters
cd pretrain_models
tar -xf en_PP-OCRv3_rec_train.tar && rm -rf en_PP-OCRv3_rec_train.tar

开始训练：

# GPU training Support single card and multi-card training
# Training icdar15 English data and The training log will be automatically saved as train.log under "{save_model_dir}"

#specify the single card training(Long training time, not recommended)
python3 tools/train.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o Global.pretrained_model=en_PP-OCRv3_rec_train/best_accuracy

#specify the card number through --gpus
python3 -m paddle.distributed.launch --gpus '0,1,2,3'  tools/train.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o Global.pretrained_model=en_PP-OCRv3_rec_train/best_accuracy

PaddleOCR 支持交替训练和评估。您可以修改eval_batch_stepinconfigs/rec/rec_icdar15_train.yml以设置评估频率。默认情况下，每 500 次迭代评估一次，并output/rec_CRNN/best_accuracy在评估过程中保存最佳 acc 模型。

如果评估集很大，测试将很耗时。建议减少评价次数，或者训练后评价。

提示：您可以使用该-c参数选择configs/rec/路径下的多个模型配置进行训练。rec_algorithm支持的识别算法：

训练中文数据，推荐使用 ch_PP-OCRv3_rec_distillation.yml。如果想在中文数据集上尝试其他算法的结果，请参考以下说明修改配置文件：

举ch_PP-OCRv3_rec_distillation.yml个例子：

Global:
  ...
  # Add a custom dictionary, such as modify the dictionary, please point the path to the new dictionary
  character_dict_path: ppocr/utils/ppocr_keys_v1.txt
  # Modify character type
  ...
  # Whether to recognize spaces
  use_space_char: True


Optimizer:
  ...
  # Add learning rate decay strategy
  lr:
    name: Cosine
    learning_rate: 0.001
  ...

...

Train:
  dataset:
    # Type of dataset，we support LMDBDataSet and SimpleDataSet
    name: SimpleDataSet
    # Path of dataset
    data_dir: ./train_data/
    # Path of train list
    label_file_list: ["./train_data/train_list.txt"]
    transforms:
      ...
      - RecResizeImg:
          # Modify image_shape to fit long text
          image_shape: [3, 48, 320]
      ...
  loader:
    ...
    # Train batch_size for Single card
    batch_size_per_card: 256
    ...

Eval:
  dataset:
    # Type of dataset，we support LMDBDataSet and SimpleDataSet
    name: SimpleDataSet
    # Path of dataset
    data_dir: ./train_data
    # Path of eval list
    label_file_list: ["./train_data/val_list.txt"]
    transforms:
      ...
      - RecResizeImg:
          # Modify image_shape to fit long text
          image_shape: [3, 48, 320]
      ...
  loader:
    # Eval batch_size for Single card
    batch_size_per_card: 256
    ...

请注意，预测/评估的配置文件必须与训练一致。

2.2）加载训练好的模型并继续训练

如果您希望加载训练好的模型并再次继续训练，您可以将参数指定Global.checkpoints为要加载的模型路径。

例如：

python3 tools/train.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./your/trained/model

2.3）新骨干训练

如果要替换的Backbone在PaddleOCR中有对应的实现，可以直接修改Backbone配置yml文件部分的参数。

但是，如果您想使用新的 Backbone，更换主干的示例如下：

在ppocr/modeling/backbones文件夹下新建一个文件，例如 my_backbone.py。
在my_backbone.py文件中添加代码，示例代码如下：

import paddle
import paddle.nn as nn
import paddle.nn.functional as F


class MyBackbone(nn.Layer):
    def __init__(self, *args, **kwargs):
        super(MyBackbone, self).__init__()
        # your init code
        self.conv = nn.xxxx

    def forward(self, inputs):
        # your network forward
        y = self.conv(inputs)
        return y

在ppocr/modeling/backbones/_ init_ .py文件中导入添加的模块。

添加网络的四部分模块后，只需要在配置文件中配置即可使用，如：

  Backbone:
    name: MyBackbone
    args1: args1

注意：有关替换 Backbone 和其他 mudule 的更多详细信息可以在doc中找到。

2.4）混合精度训练

如果想进一步加快训练速度，可以使用Auto Mixed Precision Training，以单机单gpu为例，命令如下：

python3 tools/train.py -c configs/rec/rec_icdar15_train.yml \
     -o Global.pretrained_model=./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train \
     Global.use_amp=True Global.scale_loss=1024.0 Global.use_dynamic_loss_scaling=True

2.5）分布式训练

多机多gpu训练时，使用--ips参数设置使用的机器IP地址，使用--gpus参数设置使用的GPU ID：

python3 -m paddle.distributed.launch --ips="xx.xx.xx.xx,xx.xx.xx.xx" --gpus '0,1,2,3' tools/train.py -c configs/rec/rec_icdar15_train.yml \
     -o Global.pretrained_model=./pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train

2.6）知识蒸馏训练

PaddleOCR 支持知识蒸馏，用于文本识别训练过程。有关详细信息，请参阅文档。

2.7）多语言培训

目前PaddleOCR支持的多语言算法有：

配置文件	算法名称	骨干	反式	序列	预测	语
rec_chinese_cht_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	中国传统的
rec_en_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	英文（区分大小写）
rec_french_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	法语
rec_ger_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	德语
rec_japan_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	日本人
rec_korean_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	韩国人
rec_latin_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	拉丁
rec_arabic_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	阿拉伯
rec_cyrillic_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	西里尔
rec_devanagari_lite_train.yml	神经网络	Mobilenet_v3 小 0.5	没有任何	BiLSTM	反恐委员会	梵文

更多支持的语言请参考：多语言模型

如果想在现有模型效果的基础上进行微调，请参考以下说明修改配置文件：

举rec_french_lite_train个例子：

Global:
  ...
  # Add a custom dictionary, such as modify the dictionary, please point the path to the new dictionary
  character_dict_path: ./ppocr/utils/dict/french_dict.txt
  ...
  # Whether to recognize spaces
  use_space_char: True

...

Train:
  dataset:
    # Type of dataset，we support LMDBDataSet and SimpleDataSet
    name: SimpleDataSet
    # Path of dataset
    data_dir: ./train_data/
    # Path of train list
    label_file_list: ["./train_data/french_train.txt"]
    ...

Eval:
  dataset:
    # Type of dataset，we support LMDBDataSet and SimpleDataSet
    name: SimpleDataSet
    # Path of dataset
    data_dir: ./train_data
    # Path of eval list
    label_file_list: ["./train_data/french_val.txt"]
    ...

2.8）其他平台训练（Windows/macOS/Linux DCU）

Windows GPU/CPU Windows平台与Linux平台略有不同：Windows平台只支持single gpu训练和推理，训练指定GPUset CUDA_VISIBLE_DEVICES=0 在Windows平台上，DataLoader只支持单进程模式，所以需要设置num_workers为0；
不支持macOS GPU模式，需要use_gpu在配置文件中设置为False，其余训练评估预测命令与Linux GPU完全相同。
Linux DCU 在 DCU 设备上运行需要设置环境变量export HIP_VISIBLE_DEVICES=0,1,2,3，其余训练和评估预测命令与 Linux GPU 完全相同。

3.）评估与测试

3.1）评价

Global.save_model_dir训练时的模型参数默认保存在该目录下。评估指标时，需要设置Global.checkpoints指向保存的参数文件。可以通过修改文件Eval.dataset.label_file_list中的字段来设置评估数据集configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml。

# GPU evaluation, Global.checkpoints is the weight to be tested
python3 -m paddle.distributed.launch --gpus '0' tools/eval.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o Global.checkpoints={path/to/weights}/best_accuracy

3.2）测试

使用 paddleocr 训练的模型，可以通过以下脚本快速得到预测。

默认预测图片存储在中infer_img，训练后的权重通过指定-o Global.checkpoints：

根据配置文件中设置的save_model_dir和save_epoch_step字段，将保存以下参数：

output/rec/
├── best_accuracy.pdopt  
├── best_accuracy.pdparams  
├── best_accuracy.states  
├── config.yml  
├── iter_epoch_3.pdopt  
├── iter_epoch_3.pdparams  
├── iter_epoch_3.states  
├── latest.pdopt  
├── latest.pdparams  
├── latest.states  
└── train.log

其中，best_accuracy.*是评估集上最好的模型；iter_epoch_x.* 是以为间隔保存的模型save_epoch_step；latest.* 是最后一个 epoch 的模型。

# Predict English results
python3 tools/infer_rec.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o Global.pretrained_model={path/to/weights}/best_accuracy  Global.infer_img=doc/imgs_words/en/word_1.png

输入图像：

得到输入图像的预测结果：

infer_img: doc/imgs_words/en/word_1.png
        result: ('joint', 0.9998967)

用于预测的配置文件必须与训练一致。比如你用完成了中文模型的训练python3 tools/train.py -c configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml，可以使用下面的命令来预测中文模型：

# Predict Chinese results
python3 tools/infer_rec.py -c configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml -o Global.pretrained_model={path/to/weights}/best_accuracy Global.infer_img=doc/imgs_words/ch/word_1.jpg

输入图像：

得到输入图像的预测结果：

infer_img: doc/imgs_words/ch/word_1.jpg
        result: ('韩国小馆', 0.997218)

4.）推理

推理模型（保存的模型paddle.jit.save）一般是模型训练完成后保存的固化模型，多用于部署中的预测。

训练过程中保存的模型是checkpoints模型，保存了模型的参数，多用于恢复训练。

识别模型转化为推理模型的方式与检测相同，如下：

# -c Set the training algorithm yml configuration file
# -o Set optional parameters
# Global.pretrained_model parameter Set the training model address to be converted without adding the file suffix .pdmodel, .pdopt or .pdparams.
# Global.save_inference_dir Set the address where the converted model will be saved.

python3 tools/export_model.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o Global.pretrained_model=en_PP-OCRv3_rec_train/best_accuracy  Global.save_inference_dir=./inference/en_PP-OCRv3_rec/

如果您有使用不同字典文件在自己的数据集上训练的模型，请确保character_dict_path将配置文件中的修改为您的字典文件路径。

转换成功后模型保存目录下有三个文件：


inference/en_PP-OCRv3_rec/
    ├── inference.pdiparams         # The parameter file of recognition inference model
    ├── inference.pdiparams.info    # The parameter information of recognition inference model, which can be ignored
    └── inference.pdmodel           # The program file of recognition model

使用自定义字符字典的文本识别模型推理

如果在训练过程中修改了文本字典，在使用推理模型进行预测时，需要指定使用的字典路径--rec_char_dict_path

python3 tools/infer/predict_rec.py --image_dir="./doc/imgs_words_en/word_336.png" --rec_model_dir="./your inference model" --rec_image_shape="3, 32, 100" --rec_char_dict_path="your text dict path"

3.1 文字方向分类

1.）方法介绍

角度分类用于图像不是0度的场景。在这个场景中，需要对图片中检测到的文本行进行校正操作。在PaddleOCR系统中，文本检测后得到的文本行图像经过仿射变换后送入识别模型。这时候只需要对文本进行0度和180度角分类，所以内置的PaddleOCR文本角度分类器只支持0度和180度分类。如果你想支持更多的角度，你可以自己修改算法来支持。

0度和180度数据样本示例：

2.）数据准备

请按如下方式组织数据集：

训练数据的默认存储路径是PaddleOCR/train_data/cls，如果你的磁盘上已经有一个数据集，只需创建一个指向数据集目录的软链接：

ln -sf  /train_data/cls/dataset

请参考以下内容来整理您的数据。

训练集

首先将训练图像放在同一个文件夹（train_images）中，并使用一个txt文件（cls_gt_train.txt）来存储图像路径和标签。

注意：默认情况下，图片路径和图片标签是用分割的\t，如果使用其他方法分割，会导致训练错误

0 和 180 分别表示图像的角度为 0 度和 180 度。

" Image file name           Image annotation "

train/word_001.jpg   0
train/word_002.jpg   180

最终的训练集应具有以下文件结构：

|-train_data
    |-cls
        |- cls_gt_train.txt
        |- train
            |- word_001.png
            |- word_002.jpg
            |- word_003.jpg
            | ...

测试集

与训练集类似，测试集也需要提供一个包含所有图像（测试）的文件夹和一个 cls_gt_test.txt。测试集的结构如下：

|-train_data
    |-cls
        |- cls_gt_test.txt
        |- test
            |- word_001.jpg
            |- word_002.jpg
            |- word_003.jpg
            | ...

3.）培训

将准备好的txt文件和图片文件夹路径写入配置文件Train/Eval.dataset.label_file_list和Train/Eval.dataset.data_dir字段下，图片的绝对路径由Train/Eval.dataset.data_dir字段和txt文件中记录的图片名称组成。

PaddleOCR 提供训练脚本、评估脚本和预测脚本。

开始训练：

# Set PYTHONPATH path
export PYTHONPATH=$PYTHONPATH:.
# GPU training Support single card and multi-card training, specify the card number through --gpus.
# Start training, the following command has been written into the train.sh file, just modify the configuration file path in the file
python3 -m paddle.distributed.launch --gpus '0,1,2,3,4,5,6,7'  tools/train.py -c configs/cls/cls_mv3.yml

数据增强

PaddleOCR 提供了多种数据增强方法。如果您想在训练过程中添加干扰，请取消注释配置文件中的RecAug和RandAugment字段Train.dataset.transforms。

默认的扰动方法有：cvtColor、模糊、抖动、高斯噪声、随机裁剪、透视、颜色反转、RandAugment。

除 RandAugment 外，在训练过程中以 50% 的概率选择每种干扰方法。具体代码实现请参考： rec_img_aug.py randaugment.py

训练

PaddleOCR 支持交替训练和评估。您可以修改eval_batch_stepinconfigs/cls/cls_mv3.yml以设置评估频率。默认情况下，每 1000 次迭代对其进行评估。训练期间将保存以下内容：

├── best_accuracy.pdopt # Optimizer parameters for the best model
├── best_accuracy.pdparams # Parameters of the best model
├── best_accuracy.states # Metric info and epochs of the best model
├── config.yml # Configuration file for this experiment
├── latest.pdopt # Optimizer parameters for the latest model
├── latest.pdparams # Parameters of the latest model
├── latest.states # Metric info and epochs of the latest model
└── train.log # Training log

如果评估集很大，测试将很耗时。建议减少评价次数，或者训练后评价。

请注意，预测/评估的配置文件必须与训练一致。

4.）评价

可以通过修改文件Eval.dataset.label_file_list中的字段来设置评估数据集configs/cls/cls_mv3.yml。

export CUDA_VISIBLE_DEVICES=0
# GPU evaluation, Global.checkpoints is the weight to be tested
python3 tools/eval.py -c configs/cls/cls_mv3.yml -o Global.checkpoints={path/to/weights}/best_accuracy

5.）预测

训练引擎预测

使用 paddleocr 训练的模型，可以通过以下脚本快速得到预测。

用于Global.infer_img指定预测图片或文件夹的路径，Global.checkpoints用于指定权重：

# Predict English results
python3 tools/infer_cls.py -c configs/cls/cls_mv3.yml -o Global.pretrained_model={path/to/weights}/best_accuracy Global.load_static_weights=false Global.infer_img=doc/imgs_words_en/word_10.png

输入图像：

得到输入图像的预测结果：

infer_img: doc/imgs_words_en/word_10.png
     result: ('0', 0.9999995)

二、安装和使用

1、安装

我安装的环境是 ubuntu18.04、python 3.7 和 pip 22.1.2，python环境至少要是3以上，pip版本最好也高一些，不然安装过程中会有很多错误，提升pip版本的命令也在下面：

sudo apt install python3.7 python3.7-dev  //先安装python环境和依赖包

sudo apt install python3-pip //安装pip3

sudo pip3 install --upgrade pip  //提升pip版本

pip3 install -i https://mirror.baidu.com/pypi/simple cmake //此CMake是一个开源、跨平台的工具系列，旨在构建、测试和打包软件

pip3 install -i https://mirror.baidu.com/pypi/simple paddlepaddle //此处需要先安装此工具，如果系统有gpu硬件可安装paddlepaddle-gpu

pip3 install -i https://mirror.baidu.com/pypi/simple paddleocr==2.4 //此处我选的版本是2.4，官网上建议大于等于2.0.1即可

另外安装过程中可能会有很多下面的错误，就是因为当前环境的版本低的原因，只需要单独安装此python扩展即可，比如下面的软件是 scikit-learn，只需要稍微降低一下版本即可，执行

pip3 install -i https://mirror.baidu.com/pypi/simple scikit-learn==1.0  //“==” 后面是版本号，存在的版本号只需要输入10000（不存在的版本号）就会全部出来

paddleorc安装可能会出来很多其他问题，百度搜索大部分的问题都会有答案。

2、python 识别图片文字

识别图片：

代码：

#!/user/bin/env python
# coding=utf-8

from paddleocr import PaddleOCR,draw_ocr
# Paddleocr supports Chinese, English, French, German, Korean and Japanese.
# You can set the parameter `lang` as `ch`, `en`, `fr`, `german`, `korean`, `japan`
# to switch the language model in order.
ocr = PaddleOCR(use_angle_cls=True, lang='ch') # need to run only once to download and load model into memory
img_path = './file/aa.png'
result = ocr.ocr(img_path, cls=True)
for line in result:
    print(line)


# draw result
from PIL import Image
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

识别结果和绘制结果图：

绘制结果图需要安装下面的相关库和有 ttf 中文文件包，我此处使用的仿宋体。

你可能感兴趣的:(python,人工智能)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS