沉默在燃烧

PaddleOCR文字检测模型训练

PaddleOCR文字检测模型训练

本文档主要介绍PaddleOCR中文字检测模型的训练、评估及测试。

训练环境

CentOS 7
python3.7
paddlepaddle-gpu 2.0.0rc0

数据准备

自标注数据

将所有训练图片放在icdar_c4_train_imgs文件夹下，所有测试图片放在ch4_test_images目录下，以免多次标注产生多次修改代码问题。
将所有图片格式统一改成.jpg或者统一改成.png，目标为图片保持统一格式。
将标注生成的XML文件放在一个目录中，训练数据XML和测试数据XML分开。

然后执行下面的代码，把其中的xml_dir、train_file_name、train_file_label_name替换成自己的参数，执行完后会在train_file_name目录下生成一个train_file_label_name的txt文件，即为label文件。label文件与图片一起组成paddleOCR数据集。

#!/usr/local/env python3
# -*- coding: utf-8 -*-
"""
Auther: BurningSilence
date: 2020/11/16 下午5:13

DESC:
"""
import os
import xml.etree.ElementTree as et
import math


def edit_xml(xml_file, train_file_name):
    """
    VOC转换为PaddleOCR label
    :param xml_file:xml文件的路径
    :return: xml文件对应的label
    """
    x0 = y0 = x1 = y1 = x2 = y2 = x3 = y3 = 0
    tree = et.parse(xml_file)
    root = tree.getroot()
    root.attrib = None
    img_name = root.find("path").text.split("/")[-1]
    objs = root.findall('object')
    transcription_arr = []
    for obj in objs:
        dict_bak = {}
        points_arr = []
        obj_type = obj.find('type')
        name = obj.find('name')
        type = obj_type.text
        if type == 'bndbox':
            obj_bnd = obj.find('bndbox')
            xmin = int(float(obj_bnd.find('xmin').text))
            ymin = int(float(obj_bnd.find('ymin').text))
            xmax = int(float(obj_bnd.find('xmax').text))
            ymax = int(float(obj_bnd.find('ymax').text))

            x0, y0 = xmin, ymin
            x1, y1 = xmax, ymin
            x2, y2 = xmin, ymax
            x3, y3 = xmax, ymax
        elif type == 'robndbox':
            obj_bnd = obj.find('robndbox')
            cx = float(obj_bnd.find('cx').text)
            cy = float(obj_bnd.find('cy').text)
            w = float(obj_bnd.find('w').text)
            h = float(obj_bnd.find('h').text)
            angle = float(obj_bnd.find('angle').text)

            x0, y0 = rotate_point(cx, cy, cx - w / 2, cy - h / 2, -angle)
            x1, y1 = rotate_point(cx, cy, cx + w / 2, cy - h / 2, -angle)
            x2, y2 = rotate_point(cx, cy, cx + w / 2, cy + h / 2, -angle)
            x3, y3 = rotate_point(cx, cy, cx - w / 2, cy + h / 2, -angle)

        points_arr.append([x0, y0])
        points_arr.append([x1, y1])
        points_arr.append([x2, y2])
        points_arr.append([x3, y3])
        dict_bak["transcription"] = name.text
        dict_bak["points"] = points_arr
        transcription_arr.append(dict_bak)
    _img_label = train_file_name + "/" + img_name + " " + str(transcription_arr)
    print(_img_label)
    return _img_label


# 旋转后的四点坐标
def rotate_point(cx, cy, x_no_angle, y_no_angle, angle):
    x_off = x_no_angle - cx
    y_off = y_no_angle - cy
    cos_angle = math.cos(angle)
    sin_angle = math.sin(angle)
    cx_bak = cos_angle * x_off + sin_angle * y_off
    cy_bak = - sin_angle * x_off + cos_angle * y_off
    return int(cx + cx_bak), int(cy + cy_bak)


if __name__ == '__main__':
    # XML文档路径
    xml_dir = "/Users/andy/workspace/project/16-PaddleOCR/XML/"
    # 训练数据所在文件夹名称
    train_file_name = "icdar_c4_train_imgs"
    # 生成的label文件名
    train_file_label_name = "train_icdar2015_label.txt"
    label = ""
    for file in os.listdir(xml_dir):
        if file.endswith("xml"):
            img_label = edit_xml(os.path.join(xml_dir, file), train_file_name)
            label += img_label + "\n"
    with open(xml_dir + train_file_label_name, 'w') as f:
        f.write(label)

最终数据集目录如下

/PaddleOCR/train_data/icdar2015/text_localization/
  └─ icdar_c4_train_imgs/         icdar数据集的训练数据
  └─ ch4_test_images/             icdar数据集的测试数据
  └─ train_icdar2015_label.txt    icdar数据集的训练标注
  └─ test_icdar2015_label.txt     icdar数据集的测试标注

ICDAR2019-LSVT数据集

icdar2019数据集可以从官网下载到，首次下载需注册。

数据简介：共45w中文街景图像，包含5w（2w测试+3w训练）全标注数据（文本坐标+文本内容），40w弱标注数据（仅文本内容），如下图所示：

(a) 全标注数据

(b) 弱标注数据

由于弱标注数据没有文本的坐标，本文档暂时只用全标注数据，将其分为训练集和测试集（可自行分配比例），本文档分配比例8：2。

将下载的train_full_images_0.tar.gz、train_full_images_1.tar.gz解压后，分配比例放在icdar2019_train_imgs和icdar2019_test_imgs目录下，然后按下面的代码改写train_full_labels.json

#!/usr/local/env python3
# -*- coding: utf-8 -*-
"""
Auther: BurningSilence
date: 2020/11/20 上午9:49

DESC:将icdar2019数据集label转换为PaddleOCR label
"""
import json

train_imgs_path = "icdar2019_train_imgs/"

old_label_json = "train_full_labels.json"
new_label_txt = "train_icdar2019_label.txt"
with open(old_label_json, 'r', encoding='utf-8') as fr:
    with open(new_label_txt, 'w') as fw:
        for key, value in json.load(fr).items():
            fw.writelines(train_imgs_path + key + ".jpg\t" + str(value) + "\n")

并且把ppocr/data/det/db_process.py以及tools/eval_utils/eval_det_utils.py文件中的

label = json.loads(substr[1])
# 修改为
label = eval(substr[1])

因为json.loads不能识别单引号。
最终数据集目录如下

/PaddleOCR/train_data/icdar2015/text_localization/
  └─ icdar2019_train_imgs/        icdar2019数据集的训练数据
  └─ icdar2019_test_imgs/         icdar2019数据集的测试数据
  └─ train_icdar2019_label.txt    icdar2019数据集的训练标注
  └─ test_icdar2019_label.txt     icdar2019数据集的测试标注

快速启动训练

下载预训练模型

首先下载模型backbone的pretrain model，本次以MobileNetV3模型为例，PaddleOCR的检测模型目前支持两种backbone，分别是MobileNetV3、ResNet_vd系列，您可以根据需求使用PaddleClas中的模型更换backbone（骨架网络）。

cd PaddleOCR/
# 下载MobileNetV3的预训练模型
wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/MobileNetV3_large_x0_5_pretrained.tar
# 或，下载ResNet18_vd的预训练模型
wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/ResNet18_vd_pretrained.tar
# 或，下载ResNet50_vd的预训练模型
wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_ssld_pretrained.tar

# 解压预训练模型文件，以MobileNetV3为例
tar -xf ./pretrain_models/MobileNetV3_large_x0_5_pretrained.tar ./pretrain_models/

# 注：正确解压backbone预训练权重文件后，文件夹下包含众多以网络层命名的权重文件，格式如下：
./pretrain_models/MobileNetV3_large_x0_5_pretrained/
  └─ conv_last_bn_mean
  └─ conv_last_bn_offset
  └─ conv_last_bn_scale
  └─ conv_last_bn_variance
  └─ ......

启动训练

如果您安装的是cpu版本，请将配置文件（./configs/det/det_mv3_db_icdar2019_v1.1.yml）中的 use_gpu 字段修改为false。本文档使用的是GPU进行训练（第1和第2块GPU），所以需要设置环境变量（在命令行中进行训练时设置）：

export CUDA_VISIBLE_DEVICES=1,2

如果使用Pycharm训练的则需在Pycharm设置，具体设置方法为在菜单Edit->Run configurations->Environment variables添加变量的name和value即可。

命令行训练命令：

python3 tools/train.py -c configs/det/det_mv3_db_icdar2019_v1.1.yml \
     -o Global.pretrain_weights=./pretrain_models/MobileNetV3_large_x0_5_pretrained/ \
     2>&1 | tee train_det_icdar2019.log

PS:

det_mv3_db_icdar2019_v1.1.yml 可根据 det_mv3_db_v1.1.yml改写。

断点训练

如果训练程序中断，如果希望加载训练中断的模型从而恢复训练，可以通过指定Global.checkpoints指定要加载的模型路径：

python3 tools/train.py -c configs/det/det_mv3_db_icdar2019_v1.1.yml -o Global.checkpoints=output/det_db_icdar2019/best_accuracy

注意：Global.checkpoints的优先级高于Global.pretrain_weights的优先级，即同时指定两个参数时，优先加载Global.checkpoints指定的模型，如果Global.checkpoints指定的模型路径有误，会加载Global.pretrain_weights指定的模型。

指标评估

PaddleOCR计算三个OCR检测相关的指标，分别是：Precision、Recall、Hmean。

运行如下代码，根据配置文件det_db_mv3_v1.1.yml中save_res_path指定的测试集检测结果文件，计算评估指标。

评估时设置后处理参数box_thresh=0.6，unclip_ratio=1.5，使用不同数据集、不同模型训练，可调整这两个参数进行优化。

python3 tools/eval.py -c configs/det/det_mv3_db_icdar2019_v1.1.yml  -o Global.checkpoints="./output/det_db_icdar2019/iter_epoch_800" PostProcess.box_thresh=0.6 PostProcess.unclip_ratio=1.5

上面800为训练的epoch数。

测试检测效果

测试单张图像的检测效果

python3 tools/infer_det.py -c configs/det/det_mv3_db_icdar2019_v1.1.yml -o Global.infer_img="./doc/imgs_en/img_10.jpg" Global.checkpoints="./output/det_db_icdar2019/iter_epoch_800"

测试DB模型时，调整后处理阈值，

python3 tools/infer_det.py -c configs/det/det_mv3_db_icdar2019_v1.1.yml -o Global.infer_img="./doc/imgs_en/img_10.jpg" Global.checkpoints="./output/det_db_icdar2019/iter_epoch_800" PostProcess.box_thresh=0.6 PostProcess.unclip_ratio=1.5

测试文件夹下所有图像的检测效果

python3 tools/infer_det.py -c configs/det/det_mv3_db_icdar2019_v1.1.yml -o Global.infer_img="./doc/imgs_en/" Global.checkpoints="./output/det_db_icdar2019/iter_epoch_800"

PS

如果训练中遇到这种问题

json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 10 (char 9)

原因可能是数据集格式问题，其实主要是PaddleOCR代码中用的是json可以参考：python json常用方法总结，loads与dumps区别，load与dump区别
参考：
文字检测

你可能感兴趣的:(PaddleOCR,paddlepaddle,ocr)

OCR字符识别--WeChatocr 鲁鲁在川 ocr
导入库，及定义微信OCR地址fromwechat_ocr.ocr_managerimportOcrManager,OCR_MAX_TASK_IDimportthreadingwechat_ocr_dir=r"./ocr/WeChatOCR/7079/extracted"#OCR的地址，可以用everythin工具查找一下地址这个地址是电脑用户安装APP的地址---C:\Users\xxxx\App
SpringBoot一键提取身份证与营业执照信息一名技术极客 #java相关工具类 spring boot 后端 java
SpringBoot一键提取身份证与营业执照信息使用的工具和库步骤和代码示例添加依赖图像预处理和文字识别信息提取使用OpenCV对图像进行预处理OpenCV图像预处理示例集成到OCR服务中在SpringBoot中实现图片中的身份证号、营业执照等信息的识别，可以分为以下几个步骤：图像预处理：为了提高识别的准确性，首先对图片进行预处理，如调整大小、对比度、亮度等。文字检测：使用图像处理算法或框架来定位
Deluge脚本语言是什么？在Zoho Creator低代码平台中有什么作用？低代码软件开发开发工具编程语言
在当今快速变化的商业环境中，企业需要敏捷地适应市场变化，快速响应客户需求。ZohoCreator低代码开发平台，提供了一个强大的工具集，帮助企业构建定制化的应用程序。本文将探讨Deluge脚本语言是什么，以及它是如何增强ZohoCreator构建的应用程序功能方面的能力。一、传统开发模式下的痛点与挑战在当今快速变化的商业环境中，企业需要能够迅速响应市场需求并灵活调整业务流程的应用程序。然而，传统的
用Ingress生成route，如何让生成route的insecureEdgeTerminationPolicy 的值为Allow RedCong Openshift k8s 云原生 kubernetes 云原生 openshift
对于此功能当前还没有实现，相关的新功能添加的Jiraticket如下：Annotatetheingresstocreatetheroutewiththespec.tls.insecureEdgeTerminationPolicysettoAllow目前已经实现的功能为termination，insecureEdgeTerminationPolicy目前未实现。apiVersion:networki
Java - 文字识别；示例代码基于SpringAI和国产大模型沈询-阿里 microsoft 机器学习人工智能后端
文字识别在Java开发中的应用在Java开发中，将图像中的文字进行识别能力被广泛应用于多种场景，比如自动审核图片内容、商品搜索分析等。过去，这类需求主要通过OCR（光学字符识别）技术来实现，但其对于复杂图像的处理效果往往不尽人意。如今，随着大模型技术的发展，利用这些先进的AI模型进行文字识别成为可能，不仅大大提升了识别精度和速度，还能更好地理解图像中的复杂信息，为用户提供更加准确可靠的服务。本文采
ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
五分钟手机美食插画教程194-秋葵藩鼠
图片发自App图片发自App工具：procreatepocket+手指第一步：用浅绿色木炭块画笔画一个小花瓣第二步：用墨绿色木炭块画笔在长长的三角形第三步：用浅墨绿色木炭块画笔画秋葵的另一个面第四步：用绿色杂色画笔在秋葵表面刷纹理第五步：用白色木炭块画笔画截面小圆珠
HALTT4LLM：大型语言模型的幻觉检测指标谢忻含Norma
HALTT4LLM：大型语言模型的幻觉检测指标haltt4llmThisprojectisanattempttocreateacommonmetrictotestLLM'sforprogressineliminatinghallucinationswhichisthemostseriouscurrentprobleminwidespreadadoptionofLLM'sformanyrealpur
Picture Butler-Instant Save 逍遥alan
Thisisaveryconvenientandpracticalsoftware.Userscanusethissoftwaretoclassifyphotos.Firsttheuserneedstocreateanalbum.Selectthealbumcoverandenteraname.Clickonthealbumtoaddyourphoto.Simpleoperationandsimp
2018-08-11-信息理论 Information theory-C9T3P3 著屹隐莳
1、probe探针2、voyage旅行者3、spectacular壮观的、精彩的4、shun避开、回避5、prestigious著名的、有声望的6、feat成就、功绩、壮举7、crumple弄皱、变皱eg：crumpleafewsheetsintoballs将纸弄皱攒成球状8、cramadj.填鸭式学的vi.狼吞虎咽地吃东西；死记硬背功课vt.填满，塞满；死记硬背；猛吃eg：...tocramit
CRACO 快速使用小秀_heo React 及其周边生态前端 javascript
GettingStarted|CRACOcraco是专门由于cra配置的重写，扩展配置cra（webpack）。安装依赖npmi-D@craco/craco根目录下创建craco.config.js和配置configure:my-app├──node_modules+├──craco.config.js└──package.jsoncraco.config.jsmodule.exports={de
dubbo 服务消费原理分析之服务目录 DEARM LINER dubbo java 架构后端 spring boot
文章目录前言一、RegistryDirectory1、DynamicDirectory2、RegistryProtocol.doCreateInvoker2、RegistryProtocol.subscribe3、ListenerRegistryWrapper.subscribe4、FailbackRegistry.subscribe5、ZookeeperRegistry.doSubscribe6
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Python中用于从图像中提取文本的8大OCR库 woshicver python ocr 开发语言
介绍你是否曾想过你的电脑如何能够从图像中读取文字？这都要归功于一种叫做光学字符识别（OpticalCharacterRecognition,OCR）的技术。在Python中，有一些非常酷的库可以帮助你的电脑理解图片中的文字。从谷歌强大的Tesseract到EasyOCR时髦的深度学习，这些库能够做一些非常了不起的事情。让我们来看看Python中的OCR库，了解这些库是如何将图像转换成可读文字的吧！
五分钟手机美食插画教程253-粽子藩鼠
图片发自App图片发自App工具：procreatepocket+手指第一步：用深绿色木炭块画笔画一个三角粽子第二步：用不同颜色的绿色亚克力画笔在粽子表面画粽叶第三步：用深绿色杂色画笔在粽子表面加纹理行，用墨绿色木炭块画笔画叶子形状即将到来的粽子节快乐，过的是真快～
.Net/C#读取CAD软件dwg、dxf数据表实体 WineMonk .NET .net c#
.Net/C#读取CAD软件dwg、dxf数据表实体使用ACadSharp库读取CAD软件dwg数据表实体文末附ACadSharp.dll库文件及源码CadDocReaderusingACadSharp;usingACadSharp.Entities;usingACadSharp.IO;usingCSMath;usingSystem.Text.RegularExpressions;namespac
【Python】已解决：ModuleNotFoundError: No module named ‘paddle‘ 屿小夏 python paddle 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例步骤1：安装PaddlePaddle库步骤2：验证安装五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘paddle‘一、分析问题背景在使用Python进行深度学习开发时，开发者可能会选择使用PaddlePaddle作为深度学习框架。然而，有时在导入PaddlePaddle库时，可能会遇
营业执照识别OCR接口如何用PHP调用 loosenivy 识别类接口 ocr 营业执照识别营业执照图片识别营业执照ocr 营业执照信息识别
一、什么是营业执照OCR识别接口？营业执照识别OCR接口，即营业执照识别，通过上传图片或URL，识别图片内容，能够识别营业执照上的多种信息，如企业名称、统一社会信用代码、法定代表人等基本信息，以及经营范围、注册地址等详细信息。二、营业执照OCR识别接口适用哪些场景？例如：电商与零售行业：1.商户入驻审核：电商平台和零售企业在接纳新商户入驻时，需要对商户的营业执照进行审核。OCR识别可以自动提取营业
Spring Boot 自动配置简单流程憨p鱼 spring boot java
SpringBootmakesiteasytocreatestand-alone,production-gradeSpringbasedApplicationsthatyoucan"justrun".以上就依赖于自动配置！使用SSM时，需要做大量的配置，较为繁琐。而在使用SpringBoot时，如果需要引入某个依赖，则直接引入jar包，进行配置（可能是增加某个注解），最后按需在yml中进行配置即可
推荐使用：Models——简化WordPress自定义类型的高效工具郦祺嫒Amiable
推荐使用：Models——简化WordPress自定义类型的高效工具modelsWordPressplugintocreatecustomposttypesandtaxonomiesusingJSON,YAMLorPHPfiles项目地址:https://gitcode.com/gh_mirrors/models7/models在追求灵活和定制化的Web开发道路上，WordPress凭借其强大的社
探索Makefile Tutor：构建自动化神器的技术解析与实践指南劳泉文Luna
探索MakefileTutor：构建自动化神器的技术解析与实践指南Makefile_tutorThisprojectaimstocreateacrystalcleartutorialonacrypticlookingtopic.项目地址:https://gitcode.com/gh_mirrors/ma/Makefile_tutor在软件开发中，自动化构建是提高效率的关键一环，而Makefile便
开源AI图像识别：支持扫描文件批量识别快速对接数据库存储思通数科x 人工智能计算机视觉图像处理 OCR 文本识别
随着数字化转型的不断深入，图像识别技术在各行各业中的应用越来越广泛。文件封识别作为图像识别技术的一个分支，能够有效地提高文件处理的自动化程度和准确性。本文将探讨文件封识别技术的原理、应用场景以及如何将识别后的内容批量对应数据库字段进行存储。开源项目介绍(可本地部署，支持国产化)思通数科研发了一款多模态AI能力引擎，专注于提供自然语言处理（NLP）、情感分析、实体识别、图像识别与分类、OCR识别和语
使用paddlerocr识别固定颜色验证码王小葱鸭深度学习深度学习 ocr
1引言本文使用opencv和paddlerocr识别出固定颜色的验证码，原理不解释，安装包的方法自行查找，只提供代码和思路。1使用opencv对特定颜色区域进行提取2使用paddlerocr识别并输出验证码2代码2.1读取图片，提取蓝色区域frompaddleocrimportPaddleOCRimportosimportcv2importnumpyasnp#读取图像image=cv2.imrea
python版本微信ocr调用冰吸生椰拿铁. python 微信 ocr
pipinstallwechat-ocrimportbase64importosimportjsonimporttimefromwechat_ocr.ocr_managerimportOcrManager,OCR_MAX_TASK_IDfromyscredit_tools.utilsimportmd5stringwechat_ocr_dir=r"C:\Users\YS\AppData\Roamin
python调用微信自带OCR实现内容识别（全） knighthood2001 python 调用微信本地OCR进行文字识别 python 微信 ocr
博客主页：knighthood2001✨公众号：认知up吧（目前正在带领大家一起提升认知，感兴趣可以来围观一下）知识星球：【认知up吧|成长|副业】介绍❤️感谢大家点赞收藏⭐评论✍，您的三连就是我持续更新的动力❤️笔者水平有限，欢迎各位大佬指点，相互学习进步！今天就让我们来实现一下python调用微信自带OCR进行文本识别。要实现这个功能，你需要看看之前写的这两篇文章：01：py
完全离线调用微信 ocr.exe 使用 python 调用 WeChatOCR.exe 附代码点云-激光雷达-Slam-三维牙齿超值的一些内容 ocr 点云算法 python 微信
微信的OCR识别能力还是可以的，并且可以得到位置，速度也快，我想要把微信的这个exe单独提取出来，可以供其他项目使用，目前已有的应该都是需要依赖微信运行状态的，我这个独一份注意事项，不是直接复制WeChatOCR.exe就可以了，单独用它的话，需要微信运行的状态，但是我们要摆脱微信的依赖，所以需要先把微信的WeChatOCR.exe，OCR模型文件，以及2个依赖的DLL单独复制出来，也就是我下面红
Python包的安装 weixin_38778542 Python 包 python anaconda
只是在包装paddlepaddle包的时候，使用官方推荐的命令使用安装失败。大概看了一下，是其他的一些支持的包安装失败，要么是找不到，要么是版本问题，要么是自己网速差……自己又看不明白，或者是静不下心来仔细去查找问题，所以开了这个帖子，希望来记录一下学习Python中，在关于一些包的安装使用上的问题。同时也欢迎大家参与讨论。现在正在安装paddlepaddle以及其支持的包，主要学习https:/
亚马逊云科技大语言模型加速OCR应用场景发展热爱coding的星辰 ocr 自然语言处理人工智能 aws
大语言模型是一种基于神经网络的自然语言处理技术，它能够学习和预测自然语言文本中的规律和模式，可以理解和生成自然语言的人工智能程序。在大型语言模型中，神经网络模型可以通过学习大量的语言数据，自动提取自然语言文本中的特征和模式，以实现自然语言的理解和生成。OCR技术（OpticalCharacterRecognition）是一种广泛应用的人工智能技术，在大语言模型基础上，能够从文档或图像中提取文本、手
halcon深度学习4：深度学习在 OCR的用法-deep_ocr_workflow解析 mlxg99999 halcon深度学习自学
1.什么是OCR技术OCR，全称是OpticalCharacterRecognition,即光学字符识别，面向扫描文件。但是由于现在数字图像的普及，这里泛指文字检测和识别，包括扫描文档和自然场景的文字识别。2、deep_ocr_workflow在深度学习中，只有一篇例子关于OCR就是这一篇，文中介绍了深度OCR模型的建立与使用（如果使用过计量模型的可以较好理解，就是建立模型→设置参数→导入图片→进
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他