z5z5z5z56

【PaddleNLP-kie】关键信息抽取2：UIE模型做图片信息提取全流程

文章目录

本文参考
UIE理论部分
step0、UIEX原始模型使用
- 网页体验
- 本机安装使用
- - 环境安装
  - 使用docker的环境安装
  - 快速开始
step1、UIEX模型微调（小样本学习）
- 数据标注（label_studio）
- 导出数据转换
- 微调训练：
- 评估：
- 定制模型一键预测
- 微调模型对比
step2、服务化部署
step3、提升推理速度
- 封闭域模型蒸馏（bug）
- 模型量化
- 更换模型（精度急剧下降）
- fast-tokenizer（不支持）
- 提高batch_size（没用）

大模型时代来咯！讲究的就是一个通用！
本文记录我使用PaddleNLP中UIE做增值税发票信息提取的过程，同理适用于任何图片信息提取

首先上个图镇场子，里面红底的就是做图片信息提取，所需要重点关注的文件

本文参考

项目
PaddleNLP：https://github.com/PaddlePaddle/PaddleNLP
其中UIE部分：
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
发票信息提取使用的UIEX：
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document
教程/文档
跨模态文档通用信息抽取模型UIE-X来了
uie的简单介绍b站视频【AI快车道｜通用信息抽取技术与产业应用实战】 https://www.bilibili.com/video/BV1Q34y1E7SW/?share_source=copy_web&vd_source=679c63061dfbdf7484b5a4a666d4b9e1
AI快车道PaddleNLP系列直播课https://aistudio.baidu.com/aistudio/education/group/info/24902
UIE(Universal Information Extraction)

UIE理论部分

UIE原始论文
论文阅读笔记
Paddle-UIE-X

UIE(Universal Information Extraction)：Yaojie Lu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模，并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力，PaddleNLP借鉴该论文的方法，基于ERNIE 3.0知识增强预训练模型，训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取，实现零样本快速冷启动，并具备优秀的小样本微调能力，快速适配特定的抽取目标。
来源：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

官方大佬对UIEX的解释：https://zhuanlan.zhihu.com/p/592422623
paddle基于论文中的UIE做了修改，论文中的UIE是对text文本字段进行实体抽取、关系抽取、事件抽取、情感分析四种任务处理的，Paddle全新升级UIE-X，除已有纯文本抽取的全部功能外，新增文档抽取能力，具体来说paddle就是在前面增加了paddleOCR的det和rec功能，图片转化为识别出来的文本，再送入进行UIE，再结合布局分析等功能做了优化。UIE-X把这个功能端到端打通了。使用起来非常方便

step0、UIEX原始模型使用

网页体验

Huggingface hub 正式兼容 PaddleNLP 预训练模型，支持 PaddleNLP Model 和 Tokenizer 直接从 Huggingface hub 下载和上传，欢迎大家在 Huggingface hub 体验 PaddleNLP 预训练模型效果

网页直接体验UIEX原始模型：https://huggingface.co/spaces/PaddlePaddle/UIE-X
输入schema，点击submit即可

本机安装使用

环境安装

基本都是使用一键预测功能：Taskflow API去做使用的，安装包，引入库，然后就三行代码，就可以使用了，封装得很完善

安装
环境依赖

python >= 3.7

paddlepaddle >= 2.3
pip安装
pip install --upgrade paddlenlp
或者可通过以下命令安装最新 develop 分支代码：
pip install --pre --upgrade paddlenlp -f https://www.paddlepaddle.org.cn/whl/paddlenlp.html
更多关于PaddlePaddle和PaddleNLP安装的详细教程请查看get_started。
来源：https://github.com/PaddlePaddle/PaddleNLP#readme

使用docker的环境安装

对于环境依赖，可以直接pull预安装 PaddlePaddle 的镜像，再在docker里面安装paddlenlp

nvidia-docker pull registry.baidubce.com/paddlepaddle/paddle:2.4.2-gpu-cuda11.2-cudnn8.2-trt8.0
#以端口号6666对外提供SSH，挂载物理机data文件夹到虚拟机hdd文件夹
nvidia-docker run --name paddle_docker -it -v /data/:/hdd -p 6666:22 registry.baidubce.com/paddlepaddle/paddle:2.4.2-gpu-cuda11.2-cudnn8.2-trt8.0 /bin/bash
apt-get update
#docker自启动
docker update --restart=always paddle_docker

快速开始

这里以信息抽取-命名实体识别任务，UIE模型为例，来说明如何快速使用PaddleNLP:

text类信息提取
PaddleNLP提供一键预测功能，无需训练，直接输入数据即可开放域抽取结果：

>>> from pprint import pprint
>>> from paddlenlp import Taskflow

>>> schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction
>>> ie = Taskflow('information_extraction', schema=schema)
>>> pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！"))
[{'时间': [{'end': 6,
          'probability': 0.9857378532924486,
          'start': 0,
          'text': '2月8日上午'}],
  '赛事名称': [{'end': 23,
            'probability': 0.8503089953268272,
            'start': 6,
            'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
  '选手': [{'end': 31,
          'probability': 0.8981548639781138,
          'start': 28,
          'text': '谷爱凌'}]}]

图片类信息提取（使用uie-x）

import paddlenlp, paddleocr
print(paddlenlp.__version__)
print(paddleocr.__version__)

from pprint import pprint
from paddlenlp import Taskflow
schema = ["购买方名称", "购买方纳税人识别号", "货物", "规格型号", "税率", "标题", "发票号码", "销售方名称", "销售方识别号", "销售方开户行账号"]
ie = Taskflow("information_extraction", schema=schema, model="uie-x-base")
pprint(ie({"doc": "./fp1.jpg"}))

直接在/root/目录下运行，第一次运行会在根目录生成.paddlenlp和.paddleocr的隐藏文件夹，用于存储自动下载的uie和ocr模型，然后开始推理

有一些字段没有显示的，应该就是没有找到，下面只显示的是找到的，可是但凡显示出来的准确度都很高，可以说效果真的很牛，就是密码区一直不认
大概可以得出的结论是：只要图像上靠近且有明显键值对的，都可以识别，只有那种键值对不明显，或者只有值没有键的信息，才会难以提取，才会需要微调。

测试到这里我就觉得这个方案是可行的了，所以打算基于UIEX做小样本学习，实际上除了发票，对于任何图片信息提取场景，根据它的介绍少量学习都能带来大幅提升，经过我的测试确实如此

step1、UIEX模型微调（小样本学习）

按https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document进行模型微调，教程写的挺清楚了，我这里说一些其他的注意点

数据标注（label_studio）

这是本地启动服务网页使用的，为了方便数据获取，就在win装，因为我的基本环境烂了，会有一些奇怪报错：django.db.utils.OperationalError: no such function: JSON_VALID所以我在anaconda里面新建py39环境，可以正常运行

pip install label-studio#我安装的是1.7.2，教程里的1.6.0有bug
pip install -U label-studio
label-studio start

这个地方，一定得是image或者text，不能是ocr什么的，在后面数据处理转换json文件为paddle数据集的时候，只认image/test，如果换成其他的会不识别报错
标注的时候，框要偏大一点，不能恰恰好贴着文字，不然会导致提取信息的时候漏掉前面几个字符

直到后来我label多了我才意识到，原始模型的可视化就是在教我怎么label最完美：都要向前框一点，包括冒号

导出数据转换

ext:抽取式任务，实体收取和关系抽取都是抽取

python label_studio.py --label_studio_file ./document/data/label_studio.json --save_dir ./document/data --splits 0.8 0.1 0.1 --task_type ext

微调训练：

我在3090Ti上训练的速度基本是数据集增加一张图片，训练耗时增加一分钟，我标10张图片用了9分钟，标40张图片用了50分钟
模型大小：“uie-x-base“ 1.05G，训练过程占用显存情况：20G/24G

python finetune.py --device gpu --logging_steps 5 --save_steps 25 --eval_steps 25 --seed 42     --model_name_or_path uie-x-base --output_dir ./checkpoint/model_best --train_path data/train.txt     --dev_path data/dev.txt --max_seq_len 512 --per_device_train_batch_size  8     --per_device_eval_batch_size 8 --num_train_epochs 10 --learning_rate 1e-5 --do_train --do_eval  --do_export --export_model_dir ./checkpoint/model_best --overwrite_output_dir --disable_tqdm True     --metric_for_best_model eval_f1 --load_best_model_at_end  True --save_total_limit 1

评估：

python evaluate.py --device "gpu" --model_path ./checkpoint/model_best --test_path ./data/dev.txt --output_dir ./checkpoint/model_best --label_names 'start_positions' 'end_positions' --max_seq_len 512  --per_device_eval_batch_size 16 --debug True

定制模型一键预测

我写了一个脚本，来同时执行原始模型和微调模型在同一张图片上的表现，同时可视化和输出识别结果到txt，以便对比：

import pprint
from paddlenlp import Taskflow
from paddlenlp.utils.doc_parser import DocParser
import os
import sys
import time

#输入图片名参数
doc_path = str(sys.argv[1])
print(doc_path)
#发票联次，包括发票联，抵扣联，记账联


# schema = ['发票代码', '校验码', '标题', '发票联次', '发票号码', '开票日期', '购买方名称', '购买方纳税人识别号', '购买方地址电话', '购买方开户行及账号', '密码区', '货物或应税劳务服务名称', '规格型号', '单位', '数量', '单价', '金额', '税率', '税额', '合计金额', '合计税额', '价税合计（大写）', '价税合计（小写）', '销售方名称', '销售方纳税人识别号', '销售方地址电话', '销售方开户行及账号', '收款人', '复核', '开票人', '备注', '销售方（章）', '机器编号']
schema = ['发票代码', '校验码', '标题', '发票联次', '发票号码', '开票日期', '购买方名称', '购买方纳税人识别号', '购买方地址电话', '购买方开户行及账号', '货物或应税劳务服务名称', '规格型号', '单位', '数量', '单价', '金额', '税率', '税额', '合计金额', '合计税额', '价税合计(大写)', '价税合计(小写)', '销售方名称', '销售方纳税人识别号', '销售方地址电话', '销售方开户行及账号', '收款人', '复核', '开票人', '机器编号']

my_ie = Taskflow("information_extraction", model="uie-x-base", schema=schema, task_path='./checkpoint/model_best',layout_analysis=True)
ie = Taskflow("information_extraction", model="uie-x-base", schema=schema,layout_analysis=True)


filename=os.path.basename(doc_path).split('.')[0]

start_time=time.time()
my_results = my_ie({"doc": doc_path})
end_time=time.time()
print('self inference time(s):',end_time-start_time)


start_time=time.time()
results = ie({"doc": doc_path})
end_time=time.time()
print('origin inference time(s):',end_time-start_time)
# pprint(results)

if os.path.exists('./results/'+filename):
    pass
else:
    os.mkdir('./results/'+filename)
    print('mkdir ','./results/'+filename)


# 结果可视化
save_path_self='./results/'+filename+'/'+'image_show_self_'+filename+'.png'
DocParser.write_image_with_results(
    doc_path,
    result=my_results[0],
    save_path=save_path_self)

save_path_origin='./results/'+filename+'/'+'image_show_origin_'+filename+'.png'
DocParser.write_image_with_results(
    doc_path,
    result=results[0],
    save_path=save_path_origin)



#保存结果
with open('./results/'+filename+'/'+filename+'_self.txt','w') as f:
    f.write(str(str(pprint.pformat(my_results))))
    f.close()
with open('./results/'+filename+'/'+filename+'_origin.txt','w') as f:
    f.write(str(str(pprint.pformat(results))))
    f.close()

print('finished')

推理就是

λ 8be5100f3bf1 /hdd/PaddleNLP/applications/information_extraction/document python testuie_self.py data/testimages/b78.jpg

微调模型对比

总体来说微调模型相比原始模型提升很大，有学习到标记的信息，并且可以区分购买方和销售方

左边一列是微调后的，右边的原始UIE-X-base

但也有问题：比如会认密码区但不跨行，只有第一行（还不如不要），对于密码区，盖章识别，二维码识别，我就去掉了，不设schema，这些需要额外优化

我在3090Ti上推理一张的时间是5s左右，说实话还是挺慢的，后面再补充提升推理速度的问题

step2、服务化部署

这个部分可以用https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document/deploy/simple_serving
结合PaddleNLP-develop\docs\server.md进行部署，教程讲的很清楚了

或者使用百度新出的专门用来部署的工具FastDeploy：https://github.com/PaddlePaddle/FastDeploy/tree/develop/examples/vision/ocr/PP-OCR/serving
client和server的简单关系：

我就讲一些坑：
作为服务器端的环境，如果是docker，要以--net=host进行创建，例如我之前使用的

nvidia-docker run --name paddle_docker -it -v /data/:/hdd -p 6666:22 registry.baidubce.com/paddlepaddle/paddle:2.4.2-gpu-cuda11.2-cudnn8.2-trt8.0 /bin/bash

是默认–net=bridge，以桥接形式对外提供，不是–net=host，所以无法对外提供服务化部署
应该:

nvidia-docker run --name paddle_serving_docker -it -v /data/:/hdd --net=host registry.baidubce.com/paddlepaddle/paddle:2.4.2-gpu-cuda11.2-cudnn8.2-trt8.0 /bin/bash
#开启进入
sudo docker start paddle_serving_docker
sudo docker exec -it paddle_serving_docker /bin/bash
#安装基本环境
pip install paddlenlp
python3 -m pip install paddleocr
#Server服务启动
paddlenlp server server:app --workers 1 --host 10.24.83.40 --port 8189

step3、提升推理速度

封闭域模型蒸馏（bug）

我提了issue，UIEX目前也有蒸馏代码了：
https://github.com/PaddlePaddle/PaddleNLP/issues/5467
https://github.com/linjieccc/PaddleNLP/tree/add-doc-ie/applications/information_extraction/document/closed_domain
但是因为paddlenlp的一些新增支持还没有在发布版的包里面支持，所以按md一步步执行是会报错模块不存在的，通过直接从当前文件夹源代码而不是包import可以解决找不到模块问题，但引发了新的问题：

奈何我能力太菜，工程太复杂，报了很多bug所以最终没有跑出来，如果有跑出来UIEX蒸馏的朋友们欢迎私聊与我交流！！

模型量化

可以用PaddleSlim试一下
https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

更换模型（精度急剧下降）

因为其原理是经过OCR将图片转化为text再输入UIE模型，所以实际上其他size的UIE模型也能用
但经过实测，没有UIEX的版面分析等，结果几乎看不了，所以没得换

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

模型	结构	语言
`uie-base` (默认)	12-layers, 768-hidden, 12-heads	中文
`uie-base-en`	12-layers, 768-hidden, 12-heads	英文
`uie-medical-base`	12-layers, 768-hidden, 12-heads	中文
`uie-medium`	6-layers, 768-hidden, 12-heads	中文
`uie-mini`	6-layers, 384-hidden, 12-heads	中文
`uie-micro`	4-layers, 384-hidden, 12-heads	中文
`uie-nano`	4-layers, 312-hidden, 12-heads	中文
`uie-m-large`	24-layers, 1024-hidden, 16-heads	中、英文
`uie-m-base`	12-layers, 768-hidden, 12-heads	中、英文

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction#readme

模型名称	使用场景	支持任务
`uie-base` `uie-medium` `uie-mini` `uie-micro` `uie-nano`	面向纯文本场景的抽取式模型，支持中文	具备实体、关系、事件、评论观点等通用信息抽取能力
`uie-base-en`	面向纯文本场景的抽取式模型，支持英文	具备实体、关系、事件、评论观点等通用信息抽取能力
`uie-m-base` `uie-m-large`	面向纯文本场景的抽取式模型，支持中英	具备实体、关系、事件、评论观点等通用信息抽取能力
`uie-x-base`	面向纯文本和文档场景的抽取式模型，支持中英	支持纯文本场景的全部功能，还支持文档/图片/表格的端到端信息抽取

然而，经过测试uie-x-base (12L768H)本身就大概是基于uie-m-base (12L768H)进行改进的，二者模型大小差不多，但是！uie-m原始模型的推理时间3s左右，几乎减半，但是其效果也非常差！
而除了uie-m之外的其他模型不支持中英双语，就更用不了了
结论：无法更换其他模型做图片推理，其他模型都是text推理用，没有图片布局分析效果很差

fast-tokenizer（不支持）

目前不支持UIEX模型

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
TaskFlow的一个参数
use_fast: 使用C++实现的高性能分词算子FastTokenizer进行文本预处理加速。需要通过pip install fast-tokenizer-python安装FastTokenizer库后方可使用。默认为False。更多使用说明可参考FastTokenizer文档。

提高batch_size（没用）

Q&A里面的，但是我实测16和256一样都是5s……

end（会持续更新）

NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
正确解决ModuleNotFoundError: No module named ‘paddle‘异常的有效解决方法飞码创造者解决bug paddle bug python 开发语言
正确解决ModuleNotFoundError:Nomodulenamed‘paddle‘异常的有效解决方法文章目录报错问题报错原因解决方法报错问题ModuleNotFoundError:Nomodulenamed‘paddle‘异常报错原因ModuleNotFoundError:Nom
【Python】已解决：ModuleNotFoundError: No module named ‘paddle‘ 屿小夏 python paddle 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例步骤1：安装PaddlePaddle库步骤2：验证安装五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘paddle‘一、分析问题背景在使用Python进行深度学习开发时，开发者可能会选择使用PaddlePaddle作为深度学习框架。然而，有时在导入PaddlePaddle库时，可能会遇
【Python】已解决：ModuleNotFoundError: No module named ‘paddle’ 屿小夏 python paddle 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘paddle’一、分析问题背景在Python编程中，ModuleNotFoundError是一个常见的错误，它通常发生在尝试导入一个不存在的模块时。本例中，错误消息Nomodulenamed'paddle’指出Python解释器无法找到名
【三】分布式训练---单机多卡与多机多卡组网（飞桨paddle2.0+）更加推荐spawn方式！汀、人工智能 #飞桨AIstudio教学使用深度学习神经网络机器学习分布式计算分布式训练
1.单机多卡启动并行训练飞桨2.0增加paddle.distributed.spawn函数来启动单机多卡训练，同时原有的paddle.distributed.launch的方式依然保留。paddle.distributed.launch通过指定启动的程序文件，以文件为单位启动多进程来实现多卡同步训练。以前在aistudio脚本任务说明里，就是推荐这种方法启动多卡任务。launch这种方式对进程管理
百度飞桨paddle安装包括CUDA,cuDNN,opencv的安装小甲学长 opencv 百度 paddlepaddle
conda创建新环境这部分代码均在AnacondaPrompt中写，要求已有Anaconda第一步：创建condacreate--nameyourEnvpython=3.6–name：也可以缩写为【-n】，【yourEnv】是新创建的虚拟环境的名字，创建完，可以装anaconda的目录下找到envs/yourEnv目录python=2.7：是python的版本号。也可以指定为【python=3.6
使用paddlerocr识别固定颜色验证码王小葱鸭深度学习深度学习 ocr
1引言本文使用opencv和paddlerocr识别出固定颜色的验证码，原理不解释，安装包的方法自行查找，只提供代码和思路。1使用opencv对特定颜色区域进行提取2使用paddlerocr识别并输出验证码2代码2.1读取图片，提取蓝色区域frompaddleocrimportPaddleOCRimportosimportcv2importnumpyasnp#读取图像image=cv2.imrea
Python包的安装 weixin_38778542 Python 包 python anaconda
只是在包装paddlepaddle包的时候，使用官方推荐的命令使用安装失败。大概看了一下，是其他的一些支持的包安装失败，要么是找不到，要么是版本问题，要么是自己网速差……自己又看不明白，或者是静不下心来仔细去查找问题，所以开了这个帖子，希望来记录一下学习Python中，在关于一些包的安装使用上的问题。同时也欢迎大家参与讨论。现在正在安装paddlepaddle以及其支持的包，主要学习https:/
震惊！PaddlePaddle竟然支持Python 3.7了！高斯纯牛奶
震惊！****PaddlePaddle****竟然支持****Python3.7****了！image这个2018，如果你还不知道这件事情，你就真的OUT了！几天之前，一条PaddlePaddle版本发布的消息，让开发者QQ群里的成员又惊又喜：PaddlePaddle支持了Python3.7。在外人看来，PaddlePaddle就像一位用情专一的“钢铁直男“，长久以来一直钟情于Python2.7，
python与OCR识别的库存有哪些？小九不会Python #数据科学 python ocr 开发语言
Python与OCR（光学字符识别）识别相关的库有多个，其中一些最常用和流行的库包括TesseractOCR（通过pytesseract接口）、EasyOCR、PaddleOCR等。下面将详细介绍这些库及其使用方法和部分详细参数。1.TesseractOCR（通过pytesseract接口）简介：Tesseract是一个由Google开发的开源OCR引擎，支持多种操作系统和语言。Python可以通
PaddleOCR超大分辨率文本检测代码教程 LEILEI18A Python 深度学习 paddle paddleocr ppocr 超大分辨率文本检测
PaddleOCR超大分辨率文本检测代码教程目录1.前提2.PaddleOCR部署（win10下）3.解决思路和代码1.前提这是我提的issue：https://github.com/PaddlePaddle/PaddleOCR/issues/11888很多问题可以看：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/do
百度飞浆目标检测PPYOLOE模型在PC端、Jetson上的部署（python）代码能跑就可以百度目标检测 python 学习计算机视觉笔记
部署目标检测模型前，需要配置好paddlepaddle的环境：开始使用_飞桨-源于产业实践的开源深度学习平台(paddlepaddle.org.cn)PC端和Jetson板卡端的部署方法相同，如下（直接放置部署和测试代码）：importpaddle.inferenceimportcv2importnumpyasnpimporttimefrompaddle.inferenceimportConfig
百度飞桨教程（一）怎么这么多名字都被占了百度 paddlepaddle 人工智能
百度飞桨（paddle），是一个开源的深度学习平台百度飞桨的安装pipinstallpaddlepaddle-ihttps://mirror.baidu.com/pypi/simple手写数字识别案例我们来通过一个案例，大概了解paddle的使用importpaddleimportnumpyasnpfrompaddle.vision.transformsimportNormalizetransfo
PaddleDetection多目标跟踪报错MCMOTEvaluator is not exist, so the MOTA will be -INF ATM006 目标检测
ppdet.metrics.mcmot_metricsWARNING:gt_filename'{}'ofMCMOTEvaluatorisnotexist,sotheMOTAwillbe-INFPaddleDetection/ppdet/metrics/mcmot_metrics.pyclassMCMOTEvaluator(object):def__init__(self,data_root,seq
Python，Nuitka，打包Paddle和Paddleocr，test.dist\\paddle\\fluid\\..\\libs‘；飞天小女警出击 python paddle 开发语言
Python版本3.9，Nuitka版本1.8.6，paddleocr版本2.6.1.3，paddlepaddle版本2.5.2Nuitka打包后提示报错File"C:\Users\Administrator\Desktop\XXX\XXX\test.dist\os.py",line1111,inadd_dll_directoryFileNotFoundError:[WinError2]系统找不到
ubuntu18.04+cuda11.4+nccl安装袁泽斌的学习记录 ubuntu
本文参考自，但更加详细的介绍了安装方法，避免走弯路ubuntu下安装nccl具体教程_ubuntu安装nccl-CSDN博客文章浏览阅读1w次，点赞5次，收藏12次。使用paddlepaddle框架进行多卡训练时报错：Traceback(mostrecentcalllast):File"train.py",line210,indo_train()File"train.py",line91,indo
paddle nlp 3.0 全面拥抱开源大模型路人与大师 paddle 自然语言处理开源
首先安装神圣的飞桨自然语言处理框架3.0pipinstall--upgradepaddlenlp==3.0.0b0阿里云通义千问（Qwen2）系列大模型介绍阿里云通义千问（Qwen2）是阿里云推出的一系列先进的大型语言模型，涵盖了从轻量级到超大规模的各种模型，包括混合专家模型（Mixture-of-Experts,MoE）。Qwen2系列在多个自然语言处理任务上展现了卓越的性能，并且在一些基准测试
【Python】已解决：WARNING: Ignoring invalid distribution -addlepaddle (d:\soft\python36\lib\site-packages) 屿小夏 python 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确解决方法五、注意事项已解决：WARNING:Ignoringinvaliddistribution-addlepaddle(d:\soft\python36\lib\site-packages)一、分析问题背景在使用Python进行开发时，有时我们在执行pip命令（如piplist或pipfreeze）查看已安装的Python包时，
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
RuntimeError: (PreconditionNotMet) The third-party dynamic library (cublas64_102.dll；cublas64_10.dll xxxggany pip paddlepaddle
校验paddle报错：RuntimeError:(PreconditionNotMet)Thethird-partydynamiclibrary(cublas64_102.dll;cublas64_10.dll)thatPaddledependsonisnotconfiguredcorrectly.C:\ProgramFiles\NVIDIAGPUComputingToolkit\CUDA\v10
基于ERNIR3.0文本分类的开发实践 wangqiaowq 人工智能
参考：基于ERNIR3.0文本分类：(KUAKE-QIC)意图识别多分类(单标签)-飞桨AIStudio星河社区(baidu.com)https://zhuanlan.zhihu.com/p/574666812?utm_id=0遇到的问题：如下采用paddleNLP下文本分类实例进行分类训练后发现生成的模型分类不准。打算自己开发脚本进行分类计算再进行服务化部署。基于ERNIR3.0文本分类任务模型
tio-boot使用@Import 注解整合 paddle-ocr-server javaocr后端
使用@Import注解整合paddle-ocr-serverpaddle-ocr-server是笔者开发的款ocr识别应用,开源地址,paddle-ocr-server完全基于tio-boot开发,所以可以非常方便的整合到tio-boot应用中编写pom.xml只需要添加tio-boot和paddle-ocr-server依赖UTF-81.8${java.version}${java.versio
TechDay公开课实录:PaddlePaddle车牌识别实战和心得 PaddleWeekly
车牌识别作为一种常见的图像识别的应用场景，已经是一个非常成熟的业务了，在传统的车牌识别中，可以使用字符分割+字符识别的方式来进行车牌识别，而深度学习兴起后，出现了很多端到端的车牌识别模型，不用分割字符，直接输入车牌图片即可识别出车牌字符。2019年1月5日百度深度学习线下技术公开课PaddlePaddleTechDay第一期演讲则邀请了百度认证布道师胡晓曼老师分享基于PaddlePaddle最新版
基于Python的paddleocr推理环境列表博观而约取,厚积而薄发 PaddlePaddle python 开发语言
基于Python的paddleocr推理环境列表，#Python==3.9.13，安装目录名不能太长#单独导入python-mpipinstallpaddlepaddle-gpu==2.6.0.post120-fhttps://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.htmlopencv-pythonlmdbimgaugscikit-i
pip安装paddlepaddle报错ERROR: Could not install packages due to an OSError 博观而约取,厚积而薄发 PaddlePaddle pip
ERROR:CouldnotinstallpackagesduetoanOSError:[Errno2]Nosuchfileordirectory:'C:\\Users\\yang\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\\LocalCache\\local-packages\\Pyt
PaddleSeg分割框架解读[01] 核心设计解析我是天才很好 PaddleSeg使用及其解析深度学习人工智能神经网络 python
文章目录PaddleSeg分割框架解读[01]核心设计解析tools/train.pypaddleseg/cvlibs/config.pypaddleseg/cvlibs/builder.pypaddleseg/cvlibs/manager.pyPaddleSeg分割框架解读[01]核心设计解析tools/train.pyimportargparseimportrandomimportnumpya
利用PaddleNLP进行文本数据脱敏 weixin_37763484 python 数据挖掘深度学习数据挖掘自然语言处理深度学习 paddle
最近在脱敏一些客服数据，同事用正则进行了一些处理，但是感觉针对人名、数量等信息还是无法处理，例如“北方种植了很多李子树”，李子树有可能被识别为人名，又如“美国采购坦克1005台，价值4500万比索”，如果之前的正则中没有“台”和“比索”两个词汇，就无法识别。如果在脱敏过程中忽略了人名、数量等信息，可能造成严重后果。因此尝试使用了paddlenlp中的taskflow进行处理。主要思路就是利用ner
paddlepaddle 2.6版本在WSL2环境中如何使用NVIDIA显卡运行神经网络 kampoo paddlepaddle 神经网络人工智能
paddlepaddle2.6版本发布后，官网上可以使用NVIDIAcuda12.x进行机器学习了，训练神经网络的效率大为提升。因为是在wsl2环境中安装，不是纯正的linux环境，其中一些小问题需要注意。使用conda安装飞浆，wsl2中安装了cuda12.x，跟飞浆2.6兼容，按照官网指令即可：condacreate-npp2cudapython=3.11condaactivatepp2cud
概率论与数理统计实验附源码及实验报告可打包为exe 货又星概率论经验分享笔记 python 开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
【新手必看】解决GitHub打不开问题，亲测有效货又星 github 笔记经验分享 python 开源开源软件
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情