ㄣ知冷煖★

数据处理轻松搞定：如何利用PaddleNLP高效处理大规模文本数据

前言
一、paddleNLP介绍、特性
- 1-1、介绍
- 1-2、特性介绍
二、paddleNLP安装
三、PaddleNLP一键使用
- 3-1、中文分词
- 3-2、词性标注
- 3-3、命名实体识别
- 3-4、依存句法分析（DDParser）
- 3-5、解语知识标注
- 3-6、文本纠错（ERNIE-CSC）
- 3-7、文本相似度（SimBERT）
- 3-8、情感分析（BiLSTM、SKEP、UIE）
- 3-9、生成式回答（CPM）
- 3-10、智能写诗（CPM）
- 3-11、开放领域回答（PLATO-Mini）
- 3-12、代码生成
- 3-13、文本摘要
- 3-14、文档智能
- 3-15、问题生成
- 3-16、零样本文本分类（UTC）
- 3-17、模型特征提取
总结

前言

PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理（NLP）工具库。它提供了一系列用于文本处理、文本分类、情感分析、机器翻译、文本生成等任务的预训练模型、模型组件和工具函数。

一、paddleNLP介绍、特性

1-1、介绍

PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理（NLP）工具库。它提供了一系列用于文本处理、文本分类、情感分析、机器翻译、文本生成等任务的预训练模型、模型组件和工具函数。
以下是PaddleNLP的一些主要功能和特点：

预训练模型：PaddleNLP提供了多个预训练模型，包括BERT、ERNIE、RoBERTa、GPT等，这些模型在各种NLP任务中取得了优异的性能表现。用户可以通过PaddleNLP加载这些预训练模型，进行特征提取、文本分类、序列标注等任务。
模型组件：PaddleNLP提供了各种常用的NLP模型组件，例如词向量（Word Embedding）、注意力机制（Attention Mechanism）、编码器（Encoder）等，用户可以使用这些组件构建自定义的NLP模型。
数据处理工具：PaddleNLP提供了用于数据处理和数据集加载的工具函数，包括文本分词、数据预处理、数据批处理等功能，简化了NLP任务中数据的准备过程。
任务示例：PaddleNLP提供了丰富的任务示例代码，覆盖了文本分类、序列标注、文本生成等多个任务。这些示例代码可以帮助用户快速上手并理解如何使用PaddleNLP解决具体的NLP问题。
多语言支持：PaddleNLP支持多种语言，包括中文和英文，可以应用于不同语种的NLP任务。
与PaddlePaddle无缝集成：PaddleNLP基于PaddlePaddle深度学习平台构建，可以与PaddlePaddle的其他组件和功能进行无缝集成，充分发挥PaddlePaddle的优势。

总之，PaddleNLP是一个功能强大且易于使用的NLP工具库，为用户提供了丰富的预训练模型、模型组件和工具函数，帮助用户解决各种文本处理和NLP任务。无论是初学者还是有经验的研究人员和工程师，都可以从PaddleNLP中受益并加快NLP项目的开发速度。

1-2、特性介绍

PaddleNLP提供开箱即用的产业级NLP预置任务能力，无需训练，一键预测。

最全的中文任务：覆盖自然语言理解与自然语言生成两大核心应用；
极致的产业级效果：在多个中文场景上提供产业级的精度与预测性能；
统一的应用范式：通过paddlenlp.Taskflow调用，简捷易用。

二、paddleNLP安装

安装：

# 需要安装如下几种包
pip install python==3.8.10 -i https://mirror.baidu.com/pypi/simple
pip install paddlepaddle==2.4.2 -i https://mirror.baidu.com/pypi/simple
pip install paddlenlp==2.3.4 -i https://mirror.baidu.com/pypi/simple

# 智能文档任务需要调用
pip install opencv-python -i https://mirror.baidu.com/pypi/simple
pip install paddleocr -i https://mirror.baidu.com/pypi/simple

pip install --upgrade opencv-python
pip install --upgrade paddlenlp
pip install --upgrade paddleocr

验证：

import paddle
paddle.utils.run_check()

# 如果没有报错，则安装成功

其他问题：

# 在后续使用过程中，我遇到了scipy和sk-learn的一个兼容问题，我这里都卸载后重新安装了一下

pip uninstall scipy scikit-learn
pip install scipy scikit-learn -i https://mirror.baidu.com/pypi/simple

三、PaddleNLP一键使用

3-1、中文分词

中文分词（BiGRU+CRF、jieba、WordTag）

参数：

mode：指定分词模式，快速、精确、默认（两者之间）。
batch_size: 批处理大小，结合机器情况调整，默认为1。
user_dict: 自定义词典文件路径，默认为None。
task_path: 自定义任务路径，默认为None。

案例如下：

from paddlenlp import Taskflow

# 默认模式————实体粒度分词，在精度和速度上的权衡，基于百度LAC
seg = Taskflow("word_segmentation")
seg("近日国家卫健委发布第九版新型冠状病毒肺炎诊疗方案")
# ['近日', '国家卫健委', '发布', '第九版', '新型', '冠状病毒肺炎', '诊疗', '方案']

# 快速模式————最快：实现文本快速切分，基于jieba中文分词工具
seg_fast = Taskflow("word_segmentation", mode="fast")
seg_fast("近日国家卫健委发布第九版新型冠状病毒肺炎诊疗方案")
# ['近日', '国家', '卫健委', '发布', '第九版', '新型', '冠状病毒', '肺炎', '诊疗', '方案']

# 精确模式————最准：实体粒度切分准确度最高，基于百度解语
# 精确模式基于预训练模型，更适合实体粒度分词需求，适用于知识图谱构建、企业搜索Query分析等场景中
seg_accurate = Taskflow("word_segmentation", mode="accurate")
seg_accurate("近日国家卫健委发布第九版新型冠状病毒肺炎诊疗方案")
# ['近日', '国家卫健委', '发布', '第九版', '新型冠状病毒肺炎', '诊疗', '方案']

# 批量样本输入时，平均速度更快，以下NLP任务，同样适用。
seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
# [['第十四届', '全运会', '在', '西安', '举办'], ['三亚', '是', '一个', '美丽', '的', '城市']]

自定义词典：词典文件每一行由一个或多个自定义item组成。词典文件user_dict.txt示例：

平原上的火焰
上 映

3-2、词性标注

词性标注

参数：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。

案例如下：基于百度词法分析工具LAC

>>> from paddlenlp import Taskflow
# 单条预测
>>> tag = Taskflow("pos_tagging")
>>> tag("第十四届全运会在西安举办")
# [('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')]

# 批量样本输入，平均速度更快
>>> tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
# [[('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')], [('三亚', 'LOC'), ('是', 'v'), ('一个', 'm'), ('美丽', 'a'), ('的', 'u'), ('城市', 'n')]]

标签以及对应含义如下：

3-3、命名实体识别

命名实体识别：

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。
entity_only：只返回实体/概念词及其对应标签。

案例分析：

# 精确模式（默认），基于百度解语，内置91种词性及专名类别标签
>>> from paddlenlp import Taskflow
>>> ner = Taskflow("ner")
>>> ner("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
# [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]

>>> ner = Taskflow("ner", entity_only=True)  # 只返回实体/概念词
>>> ner("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
# [('孤女', '作品类_实体'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('小说', '作品类_概念'), ('作者', '人物类_概念'), ('余兼羽', '人物类_实体')]

# 快速模式，基于百度LAC，内置24种词性和专名类别标签
>>> from paddlenlp import Taskflow
>>> ner = Taskflow("ner", mode="fast")
>>> ner("三亚是一个美丽的城市")
# [('三亚', 'LOC'), ('是', 'v'), ('一个', 'm'), ('美丽', 'a'), ('的', 'u'), ('城市', 'n')]

精确模式标签集合：

快速模式标签集合：快速模式有点和词性标注类似了。

3-4、依存句法分析（DDParser）

依存句法分析：基于最大规模中文依存句法树库研发的DDParser，使用命名实体识别抽取实体，来进行依存分析。

可配置参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
model：选择任务使用的模型，可选有ddparser，ddparser-ernie-1.0和ddparser-ernie-gram-zh。
tree：确保输出结果是正确的依存句法树，默认为True。
prob：是否输出每个弧对应的概率值，默认为False。
use_pos：是否返回词性标签，默认为False。
use_cuda：是否使用GPU进行切词，默认为False。
return_visual：是否返回句法树的可视化结果，默认为False。
task_path：自定义任务路径，默认为None。

案例分析：抽取的实体为’时间’, ‘选手’, ‘赛事名称’。

>>> from pprint import pprint
>>> from paddlenlp import Taskflow

>>> schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction
>>> ie = Taskflow('information_extraction', schema=schema)
>>> pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！")) # Better print results using pprint

输出：
[{‘时间’: [{‘end’: 6,
‘probability’: 0.9857378532924486,
‘start’: 0,
‘text’: ‘2月8日上午’}],
‘赛事名称’: [{‘end’: 23,
‘probability’: 0.8503089953268272,
‘start’: 6,
‘text’: ‘北京冬奥会自由式滑雪女子大跳台决赛’}],
‘选手’: [{‘end’: 31,
‘probability’: 0.8981548639781138,
‘start’: 28,
‘text’: ‘谷爱凌’}]}]

在上例中我们已经实例化了一个Taskflow对象，这里可以通过set_schema方法重置抽取目标。

调用示例：

>>> schema = ['肿瘤的大小', '肿瘤的个数', '肝癌级别', '脉管内癌栓分级']
>>> ie.set_schema(schema)
>>> pprint(ie("（右肝肿瘤）肝细胞性肝癌（II-III级，梁索型和假腺管型），肿瘤包膜不完整，紧邻肝被膜，侵及周围肝组织，未见脉管内癌栓（MVI分级：M0级）及卫星子灶形成。（肿物1个，大小4.2×4.0×2.8cm）。"))

输出如下：
[{‘肝癌级别’: [{‘end’: 20,
‘probability’: 0.9243267447402701,
‘start’: 13,
‘text’: ‘II-III级’}],
‘肿瘤的个数’: [{‘end’: 84,
‘probability’: 0.7538413804059623,
‘start’: 82,
‘text’: ‘1个’}],
‘肿瘤的大小’: [{‘end’: 100,
‘probability’: 0.8341128043459491,
‘start’: 87,
‘text’: ‘4.2×4.0×2.8cm’}],
‘脉管内癌栓分级’: [{‘end’: 70,
‘probability’: 0.9083292325934664,
‘start’: 67,
‘text’: ‘M0级’}]}]

3-5、解语知识标注

3-6、文本纠错（ERNIE-CSC）

文本纠错

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
task_path：自定义任务路径，默认为None。

案例如下：

>>> from paddlenlp import Taskflow
>>> corrector = Taskflow("text_correction")
# 单条输入
>>> corrector('遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。')
# [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}]

# 批量预测
>>> corrector(['遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。', '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。'])
# [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}, {'source': '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。', 'target': '人生就是如此，经过磨练才能让自己更加茁壮，才能使自己更加乐观。', 'errors': [{'position': 18, 'correction': {'拙': '茁'}}]}]

3-7、文本相似度（SimBERT）

文本相似度
参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为384。
task_path：自定义任务路径，默认为None。

案例如下：

>>> from paddlenlp import Taskflow
>>> similarity = Taskflow("text_similarity")
>>> similarity([["春天适合种什么花？", "春天适合种什么菜？"]])
# [{'text1': '春天适合种什么花？', 'text2': '春天适合种什么菜？', 'similarity': 0.83402544}]

3-8、情感分析（BiLSTM、SKEP、UIE）

情感分析

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
model：选择任务使用的模型，可选有bilstm,skep_ernie_1.0_large_ch,uie-senta-base,uie-senta-- medium,uie-senta-mini,uie-senta-micro,uie-senta-nano。
task_path：自定义任务路径，默认为None。

案例如下：

>>> from paddlenlp import Taskflow
# 默认使用bilstm模型进行预测，速度快
>>> senta = Taskflow("sentiment_analysis")
>>> senta("这个产品用起来真的很流畅，我非常喜欢")
[{'text': '这个产品用起来真的很流畅，我非常喜欢', 'label': 'positive', 'score': 0.9938690066337585}]

# 使用SKEP情感分析预训练模型进行预测，精度高
>>> senta = Taskflow("sentiment_analysis", model="skep_ernie_1.0_large_ch")
>>> senta("作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。")
[{'text': '作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。', 'label': 'positive', 'score': 0.984320878982544}]

# 使用UIE模型进行情感分析，具有较强的样本迁移能力
# 1. 语句级情感分析
>>> schema = ['情感倾向[正向，负向]']
>>> senta = Taskflow("sentiment_analysis", model="uie-senta-base", schema=schema)
>>> senta('蛋糕味道不错，店家服务也很好')
[{'情感倾向[正向,负向]': [{'text': '正向', 'probability': 0.996646058824652}]}]

# 2. 评价维度级情感分析
>>> # Aspect Term Extraction
>>> # schema =  ["评价维度"]
>>> # Aspect - Opinion Extraction
>>> # schema =  [{"评价维度":["观点词"]}]
>>> # Aspect - Sentiment Extraction
>>> # schema =  [{"评价维度":["情感倾向[正向,负向,未提及]"]}]
>>> # Aspect - Sentiment - Opinion Extraction
>>> schema =  [{"评价维度":["观点词", "情感倾向[正向,负向,未提及]"]}]

>>> senta = Taskflow("sentiment_analysis", model="uie-senta-base", schema=schema)
>>> senta('蛋糕味道不错，店家服务也很热情')
[{'评价维度': [{'text': '服务', 'start': 9, 'end': 11, 'probability': 0.9709093024793489, 'relations': { '观点词': [{'text': '热情', 'start': 13, 'end': 15, 'probability': 0.9897222206316556}], '情感倾向[正向,负向,未提及]': [{'text': '正向', 'probability': 0.9999327669598301}]}}, {'text': '味道', 'start': 2, 'end': 4, 'probability': 0.9105472387838915, 'relations': {'观点词': [{'text': '不错', 'start': 4, 'end': 6, 'probability': 0.9946981266891619}], '情感倾向[正向,负向,未提及]': [{'text': '正向', 'probability': 0.9998829392709467}]}}]}]

3-9、生成式回答（CPM）

生成式回答

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。

案例如下：

>>> from paddlenlp import Taskflow
>>> qa = Taskflow("question_answering")
# 单条输入
>>> qa("中国的国土面积有多大？")
[{'text': '中国的国土面积有多大？', 'answer': '960万平方公里。'}]
# 多条输入
>>> qa(["中国国土面积有多大？", "中国的首都在哪里？"])
[{'text': '中国国土面积有多大？', 'answer': '960万平方公里。'}, {'text': '中国的首都在哪里？', 'answer': '北京。'}]

3-10、智能写诗（CPM）

案例如下：

>>> from paddlenlp import Taskflow
>>> poetry = Taskflow("poetry_generation")
# 单条输入
>>> poetry("林密不见人")
[{'text': '林密不见人', 'answer': ',但闻人语响。'}]
# 多条输入
>>> poetry(["林密不见人", "举头邀明月"])
[{'text': '林密不见人', 'answer': ',但闻人语响。'}, {'text': '举头邀明月', 'answer': ',低头思故乡。'}]

3-11、开放领域回答（PLATO-Mini）

开放领域回答: 十亿级语料训练最强中文闲聊模型PLATO-Mini，支持多轮对话

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为512。

案例如下
非交互模式：

>>> from paddlenlp import Taskflow
>>> dialogue = Taskflow("dialogue")
>>> dialogue(["吃饭了吗"])
['刚吃完饭,你在干什么呢?']

>>> dialogue(["你好", "吃饭了吗"], ["你是谁？"])
['吃过了,你呢', '我是李明啊']

交互模式：

>>> from paddlenlp import Taskflow

>>> dialogue = Taskflow("dialogue")
# 输入`exit`可退出交互模式
# max_turn：任务能记忆的对话轮数，当max_turn为1时，模型只能记住当前对话，无法获知之前的对话内容。
>>> dialogue.interactive_mode(max_turn=3)

'''
[Human]:你好
[Bot]:你好,很高兴认识你,我想问你一下,你喜欢运动吗?
[Human]:喜欢
[Bot]:那你喜欢什么运动啊?
[Human]:篮球,你喜欢篮球吗
[Bot]:当然了,我很喜欢打篮球的
'''

3-12、代码生成

3-13、文本摘要

文本摘要: 十亿级语料训练最强中文闲聊模型PLATO-Mini，支持多轮对话

参数说明：

model：可选模型，默认为IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese。
batch_size：批处理大小，请结合机器情况进行调整，默认为1。

案例如下: 通过Pegasus模型来生成摘要、支持单条、批量预测。

>>> from paddlenlp import Taskflow
>>> summarizer = Taskflow("text_summarization")
# 单条输入
>>> summarizer('2022年，中国房地产进入转型阵痛期，传统“高杠杆、快周转”的模式难以为继，万科甚至直接喊话，中国房地产进入“黑铁时代”')
# 输出：['万科喊话中国房地产进入“黑铁时代”']

# 多条输入
>>> summarizer([
  '据悉，2022年教育部将围绕“巩固提高、深化落实、创新突破”三个关键词展开工作。要进一步强化学校教育主阵地作用，继续把落实“双减”作为学校工作的重中之重，重点从提高作业设计水平、提高课后服务水平、提高课堂教学水平、提高均衡发展水平四个方面持续巩固提高学校“双减”工作水平。',
  '党参有降血脂，降血压的作用，可以彻底消除血液中的垃圾，从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用，因此平时口服党参能远离三高的危害。另外党参除了益气养血，降低中枢神经作用，调整消化系统功能，健脾补肺的功能。'
  ])
#输出：['教育部：将从四个方面持续巩固提高学校“双减”工作水平', '党参能降低三高的危害']

3-14、文档智能

文档智能: 以多语言跨模态布局增强文档预训练模型ERNIE-Layout为核心底座，注意：从我目前的实验结果来看，仅支持单页图片。如果遇到有关于环境配置的问题，请查看参考链接第四个。

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
lang：选择PaddleOCR的语言，ch可在中英混合的图片中使用，en在英文图片上的效果更好，默认为ch。
topn: 如果模型识别出多个结果，将返回前n个概率值最高的结果，默认为1。

案例如下:

>>> from pprint import pprint
>>> from paddlenlp import Taskflow

>>> docprompt = Taskflow("document_intelligence")
# 可以是图片，也可以直接是网页链接
>>> pprint(docprompt([{"doc": "./resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"]}]))

输出：
[{‘prompt’: ‘五百丁本次想要担任的是什么职位?’,
‘result’: [{‘end’: 7, ‘prob’: 1.0, ‘start’: 4, ‘value’: ‘客户经理’}]},
{‘prompt’: ‘五百丁是在哪里上的大学?’,
‘result’: [{‘end’: 37, ‘prob’: 1.0, ‘start’: 31, ‘value’: ‘广州五百丁学院’}]},
{‘prompt’: ‘大学学的是什么专业?’,
‘result’: [{‘end’: 44, ‘prob’: 0.82, ‘start’: 38, ‘value’: ‘金融学(本科）’}]}]

3-15、问题生成

问题生成：基于百度自研中文预训练模型UNIMO-Text和大规模多领域问题生成数据集

参数说明：

model：可选模型，默认为unimo-text-1.0-dureader_qg，支持的模型有[“unimo-text-1.0”, “unimo-text-1.0-dureader_qg”, “unimo-text-1.0-- - question-generation”, “unimo-text-1.0-question-generation-dureader_qg”]。
device：运行设备，默认为"gpu"。
template：模版，可选项有[0, 1, 2, 3]，1表示使用默认模版，0表示不使用模版。
batch_size：批处理大小，请结合机器情况进行调整，默认为1。
output_scores：是否要输出解码得分，默认为False。
i- s_select_from_num_return_sequences：是否对多个返回序列挑选最优项输出，当为True时，若num_return_sequences不为1则自动根据解码得分选择得分最高的序列最为最终结果，否则返回num_return_sequences个序列，默认为True。
max_length：生成代码的最大长度，默认为50。
min_length：生成代码的最小长度，默认为3。
decode_strategy：解码策略，支持beam_search和sampling，默认为beam_search。
temperature：解码参数temperature，默认为1.0。
top_k：解码参数top_k，默认为0。
top_p：解码参数top_p，默认为1.0。
num_beams：解码参数num_beams，表示beam_search解码的beam size，默认为6。
num_beam_groups：解码参数num_beam_groups，默认为1。
diversity_rate：解码参数diversity_rate，默认为0.0。
length_penalty：解码长度控制值，默认为1.2。
num_return_sequences：解码返回序列数，默认为1。
repetition_penalty：解码重复惩罚值，默认为1。
use_fast：表示是否开启基于FastGeneration的高性能预测，注意FastGeneration的高性能预测仅支持gpu，默认为False。
use_fp16_decoding: 表示在开启高性能预测的时候是否使用fp16来完成预测过程，若不使用则使用fp32，默认为False。

案例如下：

>>> from paddlenlp import Taskflow
# 默认模型为 unimo-text-1.0-dureader_qg
>>> question_generator = Taskflow("question_generation")
# 单条输入
>>> question_generator([
  {"context": "奇峰黄山千米以上的山峰有77座，整座黄山就是一座花岗岩的峰林，自古有36大峰，36小峰，最高峰莲花峰、最险峰天都峰和观日出的最佳点光明顶构成黄山的三大主峰。", "answer": "莲花峰"}
  ])
'''
  ['黄山最高峰是什么']
'''
# 多条输入
>>> question_generator([
  {"context": "奇峰黄山千米以上的山峰有77座，整座黄山就是一座花岗岩的峰林，自古有36大峰，36小峰，最高峰莲花峰、最险峰天都峰和观日出的最佳点光明顶构成黄山的三大主峰。", "answer": "莲花峰"},
  {"context": "弗朗索瓦·韦达外文名：franciscusvieta国籍：法国出生地：普瓦图出生日期：1540年逝世日期：1603年12月13日职业：数学家主要成就：为近代数学的发展奠定了基础。", "answer": "法国"}
  ])
'''
  ['黄山最高峰是什么',  '弗朗索瓦是哪里人']
'''

3-16、零样本文本分类（UTC）

适配多场景的零样本通用文本分类工具：通用文本分类主要思想是利用单一模型支持通用分类、评论情感分析、语义相似度计算、蕴含推理、多项式阅读理解等众多“泛分类”任务。用户可以自定义任意标签组合，在不限定领域、不设定 prompt 的情况下进行文本分类。

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
task_path：自定义任务路径，默认为None。
schema：定义任务标签候选集合。
model：选择任务使用的模型，默认为utc-base, 支持utc-xbase, utc-base, utc-medium, utc-micro, utc-mini, utc-nano, utc-pico。
max_seq_len：最长输入长度，包括所有标签的长度，默认为512。
pred_threshold：模型对标签预测的概率在0～1之间，返回结果去掉小于这个阈值的结果，默认为0.5。
precision：选择模型精度，默认为fp32，可选有fp16和fp32。fp16推理速度更快。如果选择fp16，请先确保机器正确安装NVIDIA相关驱动和基础软件，确保CUDA>=11.2，cuDNN>=8.1.1，初次使用需按照提示安装相关依赖。其次，需要确保GPU设备的CUDA计算能力（CUDA Compute Capability）大于7.0，典型的设备包括V100、T4、A10、A100、GTX 20系列和30系列显卡等。更多关于CUDA Compute - Capability和精度支持情况请参考NVIDIA文档：GPU硬件与支持精度对照表。

案例如下：这里以语义相似度为例。

>>> from paddlenlp import Taskflow
>>> cls = Taskflow("zero_shot_text_classification", schema=["不同", "相同"])
>>> cls([["怎么查看合同", "从哪里可以看到合同"]])
[{'predictions': [{'label': '相同', 'score': 0.9951385264364382}], 'text_a': '怎么查看合同', 'text_b': '从哪里可以看到合同'}]
>>> cls([["为什么一直没有电话来确认借款信息", "为何我还款了，今天却接到客服电话通知"]])
[{'predictions': [{'label': '不同', 'score': 0.9991497973466908}], 'text_a': '为什么一直没有电话来确认借款信息', 'text_b': '为何我还款了，今天却接到客服电话通知'}]

3-17、模型特征提取

模型特征提取：基于百度自研中文图文跨模态预训练模型ERNIE-ViL 2.0

参数说明：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
_static_mode：静态图模式，默认开启。
model：选择任务使用的模型，默认为PaddlePaddle/ernie_vil-2.0-base-zh。

>>> from paddlenlp import Taskflow
>>> from PIL import Image
>>> import paddle.nn.functional as F
>>> vision_language= Taskflow("feature_extraction")
# 单条输入
>>> image_embeds = vision_language(Image.open("demo/000000039769.jpg"))
>>> image_embeds["features"]
Tensor(shape=[1, 768], dtype=float32, place=Place(gpu:0), stop_gradient=True,
       [[-0.59475428, -0.69795364,  0.22144008,  0.88066685, -0.58184201,
# 单条输入
>>> text_embeds = vision_language("猫的照片")
>>> text_embeds['features']
Tensor(shape=[1, 768], dtype=float32, place=Place(gpu:0), stop_gradient=True,
       [[ 0.04250504, -0.41429776,  0.26163983,  0.29910022,  0.39019185,
         -0.41884750, -0.19893740,  0.44328332,  0.08186490,  0.10953025,
         ......

# 多条输入
>>> image_embeds = vision_language([Image.open("demo/000000039769.jpg")])
>>> image_embeds["features"]
Tensor(shape=[1, 768], dtype=float32, place=Place(gpu:0), stop_gradient=True,
       [[-0.59475428, -0.69795364,  0.22144008,  0.88066685, -0.58184201,
       ......
# 多条输入
>>> text_embeds = vision_language(["猫的照片","狗的照片"])
>>> text_embeds["features"]
Tensor(shape=[2, 768], dtype=float32, place=Place(gpu:0), stop_gradient=True,
       [[ 0.04250504, -0.41429776,  0.26163983, ...,  0.26221892,
          0.34387422,  0.18779707],
        [ 0.06672225, -0.41456309,  0.13787819, ...,  0.21791610,
          0.36693242,  0.34208685]])
>>> image_features = image_embeds["features"]
>>> text_features = text_embeds["features"]
>>> image_features /= image_features.norm(axis=-1, keepdim=True)
>>> text_features /= text_features.norm(axis=-1, keepdim=True)
>>> logits_per_image = 100 * image_features @ text_features.t()
>>> probs = F.softmax(logits_per_image, axis=-1)
>>> probs
Tensor(shape=[1, 2], dtype=float32, place=Place(gpu:0), stop_gradient=True,
       [[0.99833173, 0.00166824]])

参考文章：
官方GitHub.
GitHub_相关功能介绍.
PaddleNLP常见问题汇总（持续更新）.
拓展阅读：Paddle开源项目——PaddleNLP文档智能技术重磅升级，动手搭建端到端文档抽取问答模型_副本.
端到端开放文档抽取问答系统.

从0到1实现全流程本地部署Paddle项目——视频人像分割（一）.
部署：一行命令启动，十分钟内完成部署，Paddle Serving开放模型即服务功能.

总结

樱花公主佩戴着花环，跳舞在春风里，将绚烂的花瓣洒满整个季节。

你可能感兴趣的:(自然语言处理,nlp,自然语言处理,paddlepaddle)

Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
DeepSeek 模型：架构创新与实际应用详解汪子熙人工智能架构语言模型人工智能
DeepSeek模型是近年来在自然语言处理（NLP）领域备受瞩目的开源大规模语言模型系列。其最新版本DeepSeek-V3采用了混合专家（Mixture-of-Experts，MoE）架构，拥有6710亿个参数，每个词元（token）激活370亿个参数。该模型在多项基准测试中表现出色，性能媲美GPT-4和Claude等领先的闭源模型。以下将详细介绍DeepSeek模型的架构、用途，并通过具体案例和
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE kakaZhui llama 深度学习人工智能 AIGC chatgpt
在自然语言处理（NLP）领域，Transformer模型已经成为主流。然而，Transformer本身并不具备处理序列顺序的能力。为了让模型理解文本中词语的相对位置，我们需要引入位置编码（PositionalEncoding）。本文将深入探讨LLaMA模型中使用的RotaryEmbedding（旋转式嵌入）位置编码方法，并对比传统的Transformer位置编码方案，分析其设计与实现的优势。1.传
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-LangGraph-链式处理（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型 langchain
一、前言在当今人工智能快速发展的时代，大语言模型不断迭代升级，为各种复杂任务的处理提供了强大的支持。LangGraph作为一种创新的架构，其链式处理机制为充分发挥LLMs的潜力提供了新的途径。Qwen2.5模型是一款备受瞩目的大语言模型，它具备出色的语言理解和生成能力，在广泛的自然语言处理任务中都展现出了卓越的性能。其在语言的准确性、逻辑性以及对复杂语义的把握上都有着突出的表现，为基于它进行的各类
创建自定义示例选择器以优化语言翻译模型 dsndnwfk easyui 前端 javascript python
引言在构建自然语言处理模型时，一个常见的挑战是如何从大量示例中选择合适的子集来提高模型的性能和响应速度。本文将介绍如何使用自定义的示例选择器来优化语言翻译模型，特别是将英语翻译成意大利语的任务。我们将展示如何实现和使用一个基于输入长度差异选择示例的Selector。主要内容示例选择器接口在LangChain中，示例选择器负责编排用于提示的示例列表。所有选择器都基于BaseExampleSelect
Transformer--概念、作用、原理、优缺点以及简单的示例代码 Ambition_LAO transformer 深度学习
Transformer的概念Transformer是一种基于自注意力机制的神经网络模型，最早由Vaswani等人在2017年的论文《AttentionisAllYouNeed》中提出。它主要用于自然语言处理任务，如机器翻译、文本生成、文本分类等。与传统的循环神经网络（RNN）和长短时记忆网络（LSTM）不同，Transformer完全摆脱了序列结构的依赖，可以并行处理数据，显著提高了训练效率和效果
DeepSeek：通用人工智能的技术前沿与创新突破热爱分享的博士僧人工智能
一、DeepSeek的定位与背景DeepSeek（深度求索）是一家聚焦**通用人工智能（AGI）**研发的中国科技公司，成立于2023年，核心团队由全球顶尖AI科学家、工程师组成。公司以“探索智能本质，实现AGI造福人类”为使命，致力于突破大模型技术的边界，推动AI从专用向通用演进。其研发方向覆盖自然语言处理、多模态交互、强化学习等领域，并在模型架构、训练效率及实际应用场景中取得显著成果。二、核心
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
【小白学AI系列】NLP 核心知识点（六）Softmax函数介绍 Blankspace空白人工智能自然语言处理 transformer
Softmax函数Softmax函数是一种常用的数学函数，广泛应用于机器学习中的分类问题，尤其是在神经网络的输出层。它的主要作用是将一个实数向量“压缩”成一个概率分布，使得所有输出的值在0到1之间，并且总和为1。换句话说，Softmax将模型的原始输出（logits）转化为概率，帮助我们做分类决策。定义与公式假设我们有一个向量z=[z1,z2,…,zn]\mathbf{z}=[z_1,z_2,\d
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
**LLM Gateway：您的智能对话门户** 芮奕滢Kirby
LLMGateway：您的智能对话门户llm-gatewayGatewayforsecure&reliablecommunicationswithOpenAIandotherLLMproviders项目地址:https://gitcode.com/gh_mirrors/ll/llm-gateway在人工智能和自然语言处理的浪潮中，LLMGateway以其卓越的设计与功能脱颖而出，为开发者和用户提供
OpenAI的编程语言和框架，给程序员带来了帮助有哪些 API技术大佬Anzexi58 OpenAI 人工智能人工智能深度学习
OpenAI是一个人工智能开发公司，成立于2015年，总部位于美国旧金山。这家公司致力于研究和开发先进的人工智能技术，旨在将这些技术应用到解决全球一些最棘手的问题上。OpenAI以其卓越的技术和实验室出品的groundbreakingAIpapers而闻名。OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open
探索OpenAI Python SDK: 智能编程新里程周澄诗Flourishing
探索OpenAIPythonSDK:智能编程新里程openai-pythonTheofficialPythonlibraryfortheOpenAIAPI项目地址:https://gitcode.com/gh_mirrors/op/openai-python如果你对人工智能和自然语言处理有浓厚的兴趣，那么这个项目将为你开启新的探索之门——。这是一个由OpenAI开发的Python库，用于与他们的A
大模型应用：探索AI大模型的50个应用场景：让科技改变生活。 AGI大模型资料分享员人工智能科技生活 agi 语言模型自然语言处理
随着人工智能技术的迅猛发展，AI大模型在各个领域的应用日益广泛。百度创始人、董事长兼首席执行官李彦宏在2024年世界人工智能大会上表示，目前AI技术发展路线发生了方向性改变，已从过去辨别式人工智能转向了未来生成式人工智能。他更是呼吁：“大家不要卷模型，要卷应用！”本文将为大家盘点AI大模型的50个应用场景，并按应用频率从高到低进行排列，带您了解AI如何深刻改变我们的工作与生活。1.自然语言处理(N
我们为什么要用大语言模型来迭代数据安全能力？大模型. 语言模型人工智能自然语言处理架构深度学习大数据大模型
在当今科技飞速发展的时代，大语言模型无疑是最炙手可热的话题之一。从OpenAI的GPT系列到谷歌的BERT，这些拥有海量参数的模型宛如智能巨人，正重塑着自然语言处理（NLP）的格局。你或许好奇，大语言模型究竟为何如此备受瞩目？这得从自然语言处理领域的核心任务——文本分类说起。文本分类，就像是给五花八门的文本信息贴上合适的“标签”，无论是判断一封邮件是正常邮件还是垃圾邮件，分析社交媒体上的评论是积极
检索增强（Retrieval Augmentation）是一种结合信息检索技术和生成模型的技术大霸王龙系统分析业务人工智能
检索增强（RetrievalAugmentation）是一种结合信息检索技术和生成模型的技术，旨在通过从外部知识库或文档中检索相关信息来增强生成模型的能力。这种方法广泛应用于自然语言处理（NLP）任务中，如问答系统、对话生成和文本生成等。1.检索增强的核心思想检索增强的核心思想是将生成模型与信息检索系统结合，利用外部知识库或文档中的信息来辅助生成更准确、更丰富的回答或内容。具体来说，检索增强包括以
AI软件外包需要注意什么外包开发AI软件的关键因素是什么如何选择AI外包开发语言北京动点飞扬软件 AI外包
1.定义目标与需求首先，要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理，还是其他功能？明确目标可以帮助你选择合适的技术和方法。2.选择开发平台与工具开发AI智能体的软件时，你需要选择适合的编程语言、框架和工具。例如：编程语言：Python是最常用的语言，因为它有强大的AI/ML库，如TensorFlow、PyTorch、scikit-learn等。开发平台：你可以使用本地环境、
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
THULAC-Python 使用教程时昕海Minerva
THULAC-Python使用教程THULAC-PythonTHULAC-Python:由清华大学开发的中文词法分析工具包，提供中文分词和词性标注功能。项目地址:https://gitcode.com/gh_mirrors/th/THULAC-Python项目介绍THULAC（THULexicalAnalyzerforChinese）是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词
【Python】探索自然语言处理的利器：THULAC 中文词法分析库详解技术无疆 Python 人工智能自然语言处理人工智能 python 数据挖掘机器学习深度学习神经网络
THULAC（THULexicalAnalyzerforChinese）是清华大学开发的一款中文词法分析工具，集成了分词和词性标注两大功能。THULAC拥有强大的分词能力和高效的词性标注，适用于多种中文文本处理场景。该工具能够在保证高准确率的同时保持较快的处理速度，非常适合大规模中文数据处理。⭕️宇宙起点THULAC的特点安装与配置1.使用pip安装2.使用GitHub源码安装♨️使用方法1.分词
探索GigaChat与LangChain的完美结合：深度解析与实战指南 asdfujhgy langchain easyui 前端 python
探索GigaChat与LangChain的完美结合：深度解析与实战指南引言在人工智能的领域中，语言模型和嵌入技术正逐步改变我们与数据交互的方式。GigaChat作为一种创新的AI嵌入服务，结合LangChain可以提供强大的文本嵌入功能，促进自然语言处理任务的完成。本篇文章将带你深入了解如何结合GigaChat与LangChain进行文本嵌入，并提供实用的代码示例与解决方案。主要内容GigaCha
人工智能学习框架：深入解析与实战指南一ge科研小菜鸡人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着人工智能（AI）技术的飞速发展，深度学习、强化学习和自然语言处理等领域的应用愈加广泛。掌握人工智能学习框架（如TensorFlow、PyTorch、Keras等）已成为开发智能系统、研究前沿技术的必备技能。本指南将全面介绍人工智能主流学习框架的特点、安装方法、核心功能，以及通过实践案例展示如何使用这些框架进行AI模型开发、训练与优化。1.
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
#深度学习：从基础到实践 single_ffish 深度学习 gpt 神经网络生成对抗网络 1024程序员节
深度学习是人工智能领域近年来最为火热的技术之一。它通过构建由多个隐藏层组成的神经网络模型，能够从海量数据中自动学习特征和表征,在图像识别、自然语言处理、语音识别等领域取得了突破性进展。本文将全面介绍深度学习的基础知识、主要算法和实践应用,帮助您快速掌握这一前沿技术。1.深度学习的基础1.1人工神经网络深度学习是基于人工神经网络(ArtificialNeuralNetwork,ANN)的一种机器学习
AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

数据处理轻松搞定：如何利用PaddleNLP高效处理大规模文本数据

目录

前言

一、paddleNLP介绍、特性

1-1、介绍

1-2、特性介绍

二、paddleNLP安装

三、PaddleNLP一键使用

3-1、中文分词

3-2、词性标注

3-3、命名实体识别

3-4、依存句法分析（DDParser）

3-5、解语知识标注

3-6、文本纠错（ERNIE-CSC）

3-7、文本相似度（SimBERT）

3-8、情感分析（BiLSTM、SKEP、UIE）

3-9、生成式回答（CPM）

3-10、智能写诗（CPM）

3-11、开放领域回答（PLATO-Mini）

3-12、代码生成

3-13、文本摘要

3-14、文档智能

3-15、问题生成

3-16、零样本文本分类（UTC）

3-17、模型特征提取

总结

你可能感兴趣的:(自然语言处理,nlp,自然语言处理,paddlepaddle)