汀、

PaddleNLP--UIE（二）--小样本快速提升性能（含doccona标注）

相关文章：
1.快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
2.快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
3.快递单信息抽取【三】–五条标注数据提高准确率，仅需五条标注样本，快速完成快递单信息任务
1）PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
2）PaddleNLP–UIE（二）–小样本快速提升性能（含doccona标注）
！强烈推荐：数据标注平台doccano----简介、安装、使用、踩坑记录

本项目链接：
https://aistudio.baidu.com/aistudio/projectdetail/4160689?contributionType=1

项目主页：
https://aistudio.baidu.com/aistudio/usercenter

0.信息抽取定义以及难点

自动从无结构或半结构的文本中抽取出结构化信息的任务, 主要包含的任务包含了实体识别、关系抽取、事件抽取、情感分析、评论抽取等任务; 同时信息抽取涉及的领域非常广泛，信息抽取的技术需求高，下面具体展现一些示例

需求跨领域跨任务：领域之间知识迁移难度高，如通用领域知识很难迁移到垂类领域，垂类领域之间的知识很难相互迁移；存在实体、关系、事件等不同的信息抽取任务需求。
定制化程度高：针对实体、关系、事件等不同的信息抽取任务，需要开发不同的模型，开发成本和机器资源消耗都很大。
训练数据无或很少：部分领域数据稀缺，难以获取，且领域专业性使得数据标注门槛高。

针对以上难题，中科院软件所和百度共同提出了一个大一统诸多任务的通用信息抽取技术 UIE（Unified Structure Generation for Universal Information Extraction），发表在ACL‘22。UIE在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下，UIE均取得了SOTA性能。

PaddleNLP结合文心大模型中的知识增强NLP大模型ERNIE 3.0，发挥了UIE在中文任务上的强大潜力，开源了首个面向通用信息抽取的产业级技术方案，不需要标注数据（或仅需少量标注数据），即可快速完成各类信息抽取任务。

**链接指路：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie ）

1.使用PaddleNLP Taskflow工具解决信息抽取难点（中文版本）

1.1安装PaddleNLP

! pip install --upgrade paddlenlp
! pip show paddlenlp

1.2 使用Taskflow UIE任务看看效果

人力资源入职证明信息抽取

from paddlenlp import Taskflow 
schema = ['姓名', '毕业院校', '职位', '月收入', '身体状况']
ie = Taskflow('information_extraction', schema=schema)

schema = ['姓名', '毕业院校', '职位', '月收入', '身体状况']
ie.set_schema(schema)
ie('兹证明凌霄为本单位职工，已连续在我单位工作5 年。学历为嘉利顿大学毕业，目前在我单位担任总经理助理  职位。近一年内该员工在我单位平均月收入（税后）为  12000 元。该职工身体状况良好。本单位仅此承诺上述表述是正确的，真实的。')

[{'姓名': [{'text': '凌霄',
    'start': 3,
    'end': 5,
    'probability': 0.9042383385504706}],
  '毕业院校': [{'text': '嘉利顿大学',
    'start': 28,
    'end': 33,
    'probability': 0.9927952662605009}],
  '职位': [{'text': '总经理助理',
    'start': 44,
    'end': 49,
    'probability': 0.9922470268350594}],
  '月收入': [{'text': '12000 元',
    'start': 77,
    'end': 84,
    'probability': 0.9788556518998917}],
  '身体状况': [{'text': '良好',
    'start': 92,
    'end': 94,
    'probability': 0.9939678710475306}]}]

# Jupyter Notebook默认做了格式化输出，如果使用其他代码编辑器，可以使用Python原生包pprint进行格式化输出

from pprint import pprint
pprint(ie('兹证明凌霄为本单位职工，已连续在我单位工作5 年。学历为嘉利顿大学毕业，目前在我单位担任总经理助理  职位。近一年内该员工在我单位平均月收入（税后）为  12000 元。该职工身体状况良好。本单位仅此承诺上述表述是正确的，真实的。'))

医疗病理分析

schema = ['肿瘤部位', '肿瘤大小']
ie.set_schema(schema)
ie('胃印戒细胞癌，肿瘤主要位于胃窦体部，大小6*2cm，癌组织侵及胃壁浆膜层，并侵犯血管和神经。')

[{'肿瘤部位': [{'text': '胃窦体部',
    'start': 13,
    'end': 17,
    'probability': 0.9601818899487213}],
  '肿瘤大小': [{'text': '6*2cm',
    'start': 20,
    'end': 25,
    'probability': 0.9670914301489972}]}]

1.3使用Taskflow UIE进行实体抽取、关系抽取、事件抽取、情感分类、观点抽取

# 实体抽取
schema = ['时间', '赛手', '赛事名称']
ie.set_schema(schema)
ie('2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！')

[{'时间': [{'text': '2月8日上午',
    'start': 0,
    'end': 6,
    'probability': 0.9857379716035553}],
  '赛手': [{'text': '中国选手谷爱凌',
    'start': 24,
    'end': 31,
    'probability': 0.7232891682586384}],
  '赛事名称': [{'text': '北京冬奥会自由式滑雪女子大跳台决赛',
    'start': 6,
    'end': 23,
    'probability': 0.8503080086948529}]}]

# 关系抽取
schema = {'歌曲名称': ['歌手', '所属专辑']}  
ie.set_schema(schema)
ie('《告别了》是孙耀威在专辑爱的故事里面的歌曲')

[{'歌曲名称': [{'text': '告别了',
    'start': 1,
    'end': 4,
    'probability': 0.629614912348881,
    'relations': {'歌手': [{'text': '孙耀威',
       'start': 6,
       'end': 9,
       'probability': 0.9988381005599081}],
     '所属专辑': [{'text': '爱的故事',
       'start': 12,
       'end': 16,
       'probability': 0.9968462078543183}]}},
   {'text': '爱的故事',
    'start': 12,
    'end': 16,
    'probability': 0.28168707817316374,
    'relations': {'歌手': [{'text': '孙耀威',
       'start': 6,
       'end': 9,
       'probability': 0.9951415104192272}]}}]}]

# 事件抽取
schema = {'地震触发词': ['地震强度', '时间', '震中位置', '震源深度']}  # 事件需要通过xxx触发词来选择触发词
ie.set_schema(schema)
ie('中国地震台网正式测定：5月16日06时08分在云南临沧市凤庆县(北纬24.34度，东经99.98度)发生3.5级地震，震源深度10千米。')

[{'地震触发词': [{'text': '地震',
    'start': 56,
    'end': 58,
    'probability': 0.9977425555988333,
    'relations': {'地震强度': [{'text': '3.5级',
       'start': 52,
       'end': 56,
       'probability': 0.998080217831891}],
     '时间': [{'text': '5月16日06时08分',
       'start': 11,
       'end': 22,
       'probability': 0.9853299772936026}],
     '震中位置': [{'text': '云南临沧市凤庆县(北纬24.34度，东经99.98度)',
       'start': 23,
       'end': 50,
       'probability': 0.7874014521275967}],
     '震源深度': [{'text': '10千米',
       'start': 63,
       'end': 67,
       'probability': 0.9937974422968665}]}}]}]

# 情感倾向分类
schema = '情感倾向[正向，负向]' # 分类任务需要[]来设置分类的label
ie.set_schema(schema) 
ie('这个产品用起来真的很流畅，我非常喜欢')

[{'情感倾向[正向，负向]': [{'text': '正向', 'probability': 0.9990024058203417}]}]

# 评价抽取
schema = {'评价维度': ['观点词', '情感倾向[正向，负向]']}  # 评价抽取的schema是固定的，后续直接按照这个schema进行观点抽取
ie.set_schema(schema) # Reset schema
ie('地址不错，服务一般，设施陈旧')

[{'评价维度': [{'text': '地址',
    'start': 0,
    'end': 2,
    'probability': 0.9888139270606509,
    'relations': {'观点词': [{'text': '不错',
       'start': 2,
       'end': 4,
       'probability': 0.9927845886615216}],
     '情感倾向[正向，负向]': [{'text': '正向', 'probability': 0.998228967796706}]}},
   {'text': '设施',
    'start': 10,
    'end': 12,
    'probability': 0.9588298547520608,
    'relations': {'观点词': [{'text': '陈旧',
       'start': 12,
       'end': 14,
       'probability': 0.928675281256794}],
     '情感倾向[正向，负向]': [{'text': '负向', 'probability': 0.9949388606013692}]}},
   {'text': '服务',
    'start': 5,
    'end': 7,
    'probability': 0.9592857070501211,
    'relations': {'观点词': [{'text': '一般',
       'start': 7,
       'end': 9,
       'probability': 0.9949359182521675}],
     '情感倾向[正向，负向]': [{'text': '负向', 'probability': 0.9952498258302498}]}}]}]

# 跨任务跨领域抽取
schema = ['寺庙', {'丈夫': '妻子'}]  # 抽取的任务中包含了实体抽取和关系抽取
ie.set_schema(schema)
ie('李治即位后，让身在感业寺的武则天续起头发，重新纳入后宫。')

[{'寺庙': [{'text': '感业寺',
    'start': 9,
    'end': 12,
    'probability': 0.9888581774497425}],
  '丈夫': [{'text': '李治',
    'start': 0,
    'end': 2,
    'probability': 0.989690572797457,
    'relations': {'妻子': [{'text': '武则天',
       'start': 13,
       'end': 16,
       'probability': 0.9987625986790256}]}}]}]

1.4使用Taskflow UIE一些技巧

1.4.1. 调整batch_size提升预测效率

from paddlenlp import Taskflow
schema = ['费用']
ie.set_schema(schema)
ie = Taskflow('information_extraction', schema=schema, batch_size=2) #资源不充裕情况，batch_size设置小点，利用率增加。。
ie(['二十号21点49分打车回家46块钱', '8月3号往返机场交通费110元', '2019年10月17日22点18分回家打车46元', '三月三0号23点10分加班打车21元'])

[{'费用': [{'text': '46块钱',
    'start': 13,
    'end': 17,
    'probability': 0.9781786110574338}]},
 {'费用': [{'text': '110元',
    'start': 11,
    'end': 15,
    'probability': 0.9504088995163151}]},
 {'费用': [{'text': '46元',
    'start': 21,
    'end': 24,
    'probability': 0.9753814247531167}]},
 {'费用': [{'text': '21元',
    'start': 15,
    'end': 18,
    'probability': 0.9761294626311425}]}]

1.4.2. 使用UIE-Tiny模型来加快模型预测速度

from paddlenlp import Taskflow
schema = ['费用']
ie.set_schema(schema)
ie = Taskflow('information_extraction', schema=schema, batch_size=2, model='uie-tiny') #
ie(['二十号21点49分打车回家46块钱', '8月3号往返机场交通费110元', '2019年10月17日22点18分回家打车46元', '三月三0号23点10分加班打车21元'])

[{'费用': [{'text': '46块钱',
    'start': 13,
    'end': 17,
    'probability': 0.8945340489542026}]},
 {'费用': [{'text': '110元',
    'start': 11,
    'end': 15,
    'probability': 0.9757676375014448}]},
 {'费用': [{'text': '46元',
    'start': 21,
    'end': 24,
    'probability': 0.860397941604333}]},
 {'费用': [{'text': '21元',
    'start': 15,
    'end': 18,
    'probability': 0.8595131018474689}]}]

2.小样本提升UIE效果

Taskflow中的UIE基线版本我们是通过大量的有标签样本进行训练，但是UIE抽取的效果面对部分子领域的效果也不是令人满意，UIE可以通过小样本就可以快速提升效果。
为什么UIE可以通过小样本来提升效果呢？UIE的建模方式主要是通过 Prompt 方式来建模， Prompt 在小样本上进行微调效果非常有效，下面我们通过一个具体的case
来展示UIE微调的效果。

2.1语音报销工单信息抽取

1. 背景

在某公司内部可以通过语音输入来报销打车费用，通过语音ASR模型可以将语音识别为文字，同时对文字信息进行信息抽取，抽取的信息主要是包括了4个方面，时间、出发地、目的地、费用，通过对文字4个方面的信息进行抽取就可以完成一个报销工单的填写。

2. 挑战

目前Taskflow UIE任务对于这种非常垂类的任务效果没有完全达到工业使用水平，因此需要一定的微调手段来完成UIE模型的微调来提升模型的效果，下面是一些case的展现

ie.set_schema(['时间', '出发地', '目的地', '费用'])
ie('10月16日高铁从杭州到上海南站车次d5414共48元')  # 无法准确抽取出发地、目的地

[{'时间': [{'text': '10月16日',
    'start': 0,
    'end': 6,
    'probability': 0.9552445817793149}],
  '出发地': [{'text': '杭州',
    'start': 9,
    'end': 11,
    'probability': 0.5713024802221334}],
  '费用': [{'text': '48元',
    'start': 24,
    'end': 27,
    'probability': 0.8932524634666485}]}]

2.2 标注数据

参考链接详细版本—doccano标注过程
我们推荐使用数据标注平台doccano 进行数据标注，本案例也打通了从标注到训练的通道，即doccano导出数据后可通过doccano.py脚本轻松将数据转换为输入模型时需要的形式，实现无缝衔接。为达到这个目的，您需要按以下标注规则在doccano平台上标注数据：

Step 1. 本地安装doccano（请勿在AI Studio内部运行，本地测试环境python=3.8）

$ pip install doccano

Step 2. 初始化数据库和账户（用户名和密码可替换为自定义值）

$ doccano init

$ doccano createuser --username my_admin_name --password my_password

Step 3. 启动doccano

在一个窗口启动doccano的WebServer，保持窗口

$ doccano webserver --port 8000

在另一个窗口启动doccano的任务队列

$ doccano task

Step 4. 运行doccano来标注实体和关系

打开浏览器（推荐Chrome），在地址栏中输入http://127.0.0.1:8000/后回车即得以下界面。

登陆账户。点击右上角的LOGIN，输入Step 2中设置的用户名和密码登陆。
创建项目。点击左上角的CREATE，跳转至以下界面。
- 勾选序列标注（Sequence Labeling）
- 填写项目名称（Project name）等必要信息
- 勾选允许实体重叠（Allow overlapping entity）、使用关系标注（Use relation labeling）
- 创建完成后，项目首页视频提供了从数据导入到导出的七个步骤的详细说明。
设置标签。在Labels一栏点击Actions，Create Label手动设置或者Import Labels从文件导入。
- 最上边Span表示实体标签，Relation表示关系标签，需要分别设置。
导入数据。在Datasets一栏点击Actions、Import Dataset从文件导入文本数据。
- 根据文件格式（File format）给出的示例，选择适合的格式导入自定义数据文件。
- 导入成功后即跳转至数据列表。
标注数据。点击每条数据最右边的Annotate按钮开始标记。标记页面右侧的标签类型（Label Types）开关可在实体标签和关系标签之间切换。
- 实体标注：直接用鼠标选取文本即可标注实体。
- 关系标注：首先点击待标注的关系标签，接着依次点击相应的头尾实体可完成关系标注。
导出数据。在Datasets一栏点击Actions、Export Dataset导出已标注的数据。

将标注数据转化成UIE训练所需数据

将doccano平台的标注数据保存在./data/目录。对于语音报销工单信息抽取的场景，可以直接下载标注好的数据。

各个任务标注文档

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/uie/doccano.md

! wget https://paddlenlp.bj.bcebos.com/datasets/erniekit/speech-cmd-analysis/audio-expense-account.jsonl
! mv audio-expense-account.jsonl ./data/

运行以下代码将标注数据转换为UIE训练所需要的数据
splits 0.2 0.8 0.0 训练集测试集验证集

可配置参数说明

doccano_file: 从doccano导出的数据标注文件。
save_dir: 训练数据的保存目录，默认存储在data目录下。
negative_ratio: 最大负例比例，该参数只对抽取类型任务有效，适当构造负例可提升模型效果。负例数量和实际的标签数量有关，最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效，默认为5。为了保证评估指标的准确性，验证集和测试集默认构造全负例。
splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]表示按照8:1:1的比例将数据划分为训练集、验证集和测试集。
task_type: 选择任务类型，可选有抽取和分类两种类型的任务。
options: 指定分类任务的类别标签，该参数只对分类类型任务有效。
prompt_prefix: 声明分类任务的prompt前缀信息，该参数只对分类类型任务有效。
is_shuffle: 是否对数据集进行随机打散，默认为True。
seed: 随机种子，默认为1000.

! python preprocess.py --input_file ./data/audio-expense-account.jsonl --save_dir ./data/ --negative_ratio 5 --splits 0.2 0.8 0.0 --seed 1000

2.3 训练UIE模型

使用标注数据进行小样本训练，模型参数保存在./checkpoint/目录。

tips: 推荐使用GPU环境，否则可能会内存溢出。CPU环境下，可以修改model为uie-tiny，适当调下batch_size。

增加准确率的话：–num_epochs 设置大点多训练训练

可配置参数说明：

train_path: 训练集文件路径。
dev_path: 验证集文件路径。
save_dir: 模型存储路径，默认为./checkpoint。
learning_rate: 学习率，默认为1e-5。
batch_size: 批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数，默认为16。
max_seq_len: 文本最大切分长度，输入超过最大长度时会对输入文本进行自动切分，默认为512。
num_epochs: 训练轮数，默认为100。
model: 选择模型，程序会基于选择的模型进行模型微调，可选有uie-base和uie-tiny，默认为uie-base。
seed: 随机种子，默认为1000.
logging_steps: 日志打印的间隔steps数，默认10。
valid_steps: evaluate的间隔steps数，默认100。
device: 选用什么设备进行训练，可选cpu或gpu。

! python finetune.py --train_path ./data/train.txt --dev_path ./data/dev.txt --save_dir ./checkpoint --model uie-tiny --learning_rate 1e-5 --batch_size 2 --max_seq_len 512 --num_epochs 50 --seed 1000 --logging_steps 10 --valid_steps 10

#! python finetune.py --train_path ./data/train.txt --dev_path ./data/dev.txt --save_dir ./checkpoint --model uie-base --learning_rate 1e-5 --batch_size 16 --max_seq_len 512 --num_epochs 50 --seed 1000 --logging_steps 10 --valid_steps 10

使用小样本训练后的模型参数再次测试无法正确抽取的case。

from paddlenlp import Taskflow

schema = ['时间', '出发地', '目的地', '费用']

few_ie = Taskflow('information_extraction', schema=schema, task_path='./checkpoint/model_best')

few_ie(['10月16日高铁从杭州到上海南站车次d5414共48元',
        '10月22日从公司到首都机场38元过路费'])

[{'时间': [{'text': '10月16日',
    'start': 0,
    'end': 6,
    'probability': 0.9998620769863464}],
  '出发地': [{'text': '杭州',
    'start': 9,
    'end': 11,
    'probability': 0.997861665709749}],
  '目的地': [{'text': '上海南站',
    'start': 12,
    'end': 16,
    'probability': 0.9974161074329579}],
  '费用': [{'text': '48',
    'start': 24,
    'end': 26,
    'probability': 0.950222029031579}]},
 {'时间': [{'text': '10月22日',
    'start': 0,
    'end': 6,
    'probability': 0.9995716364718135}],
  '目的地': [{'text': '首都机场',
    'start': 10,
    'end': 14,
    'probability': 0.9984550308953608}],
  '费用': [{'text': '38',
    'start': 14,
    'end': 16,
    'probability': 0.9465688451171062}]}]

你可能感兴趣的:(知识图谱,NLP,自然语言处理,人工智能,深度学习,paddlepaddle,nlp)

【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
最新人工智能硬件培训AI 基础入门学习课程参考2025版（大模型篇）聆思科技AI芯片聆思大模型开发板实践分享大模型语音交互人工智能语音识别视觉检测 AI编程人机交互
前言在人工智能大模型重塑教育与社会发展的当下，无论是探索未来职业方向，还是更新技术储备，掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手，到课堂用于学术研究的智能工具，大模型正在工作生活教育等领域发挥着越来越重要的作用。针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求，我们根据CSK6大模型语音视觉开发板已有功能，整理了一份适合基于本开发板进行教学活动的学习课程参考给大家备
飞算JavaAI 2.0.0深度测评：自然语言编程如何重构开发生产力？知识产权13937636601 计算机 Java
摘要2025年自然语言编程（NLPProgramming）迎来工业化拐点，飞算JavaAI2.0.0以语义理解精度＞92%、企业级代码生成通过率＞87%的核心能力，正在重构Java开发范式。本文通过电商、金融、工业物联网三大场景实测，揭秘其如何实现需求描述到可部署代码的端到端转化。数据显示：复杂业务模块开发效率提升3-8倍，逻辑缺陷率降低70%，同时提供语义级安全审计、架构腐化预警等独家能力，为传
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
提升AI产品竞争力：可用性评估的10个核心维度 AGI大模型与大数据研究院人工智能 ai
提升AI产品竞争力：可用性评估的10个核心维度关键词：AI产品、可用性评估、用户体验、人机交互、产品竞争力、评估维度、人工智能摘要：本文深入探讨了提升AI产品竞争力的10个核心可用性评估维度。我们将从用户角度出发，系统性地分析如何评估和优化AI产品的可用性，包括易用性、效率、可学习性、容错性等关键指标。通过详细的案例分析和实用建议，帮助产品团队打造更具竞争力的AI解决方案。背景介绍目的和范围本文旨
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
大学专业科普 | 物联网、自动化和人工智能
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。物联网专业课程设置基础课程：包括物联网概论、电子电工基础、计算机网络技术、数据库应用基础、C语言程序设计等。专业核心课程：传感器与传感网技术、自动识别技术与应用、单片机基础、物联网通信技术、嵌入式系统设计、无线传感器网络等。实践课
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
招标专家随机抽选——抽取结果打印模板设计—未来之窗智能编程——仙盟创梦IDE 未来之窗软件服务招标专家仙盟创梦IDE 东方仙盟
打印代码function未来之窗_人工智能_打印指定区域(魔都id){varmode="iframe";varclose=false;varextraCss=`.cyberwinqrimg{display:inline-block!important;}`;varkeepAttr=[];keepAttr.push($("#"+魔都id).html());varheadElements=',';va
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
ali PaddleNLP docker 大熊程序猿 AI大模型 docker 容器运维
一、添加文件nano /root/projects/paddlenlp_similarity_server.pyfromflaskimportFlask,request,jsonifyimportpaddlefrompaddlenlpimportTaskflowimportjsonimportuuidapp=Flask(__name__)#初始化文本相似度模型similarity=Taskflow
Neo4j 图数据库安装教程（2024最新版）—— Windows / Linux / macOS 全平台指南 2501_91537435 图数据库 neo4j 数据库 windows
Neo4j图数据库安装教程（2024最新版）——Windows/Linux/macOS全平台指南Neo4j是目前最流行的图数据库（GraphDatabase），广泛应用于社交网络、推荐系统、知识图谱等领域。本文将详细介绍Windows、Linux和macOS三大平台的Neo4j安装方法，并包含配置优化、基础使用示例和常见问题解决。一、Neo4j简介1.什么是Neo4j？Neo4j是一个高性能的No
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
2025年 UI 自动化框架使用排行 Thomas Kant 自动化测试 ui 自动化运维
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】</
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro