stay_foolish12

paddlenlp 任务清单中文分词、中文纠错、文本相似度、情感分析、词性标注等一键

PaddleNLP Taskflow https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md#paddlenlp-taskflow

PaddleNLP Taskflow

PaddleNLP Taskflow
- 介绍
  - 任务清单
- 用法
  - 查看使用示例
  - 中文分词
  - 词性标注
  - 命名实体识别
  - 文本纠错
  - 句法分析
  - 情感分析
  - 文本相似度
  - 『解语』-词类知识标注
  - 『解语』-名词短语标注
  - 生成式问答
  - 智能写诗
  - 开放域对话
- 自定义任务
- FAQ

介绍

paddlenlp.Taskflow提供开箱即用的NLP预置任务，覆盖自然语言理解与自然语言生成两大核心应用，在中文场景上提供产业级的效果与极致的预测性能。

任务清单

自然语言理解任务	自然语言生成任务
中文分词	生成式问答
词性标注	智能写诗
命名实体识别	开放域对话
文本纠错	文本翻译(TODO)
句法分析	自动对联(TODO)
情感分析
文本相似度
『解语』-词类知识标注
『解语』-名词短语标注

随着版本迭代会持续开放更多的应用场景。

安装

环境依赖

python >= 3.6
paddlepaddle >= 2.2.0
paddlenlp >= 2.2.0

用法

查看使用示例

from paddlenlp import Taskflow

seg = Taskflow("word_segmentation")
seg.help()
>>> Examples:
        from paddlenlp import Taskflow

        seg = Taskflow("word_segmentation")
        seg("第十四届全运会在西安举办")
        '''
        ['第十四届', '全运会', '在', '西安', '举办']
        '''

        seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
        '''
        [['第十四届', '全运会', '在', '西安', '举办'], ['三亚', '是', '一个', '美丽', '的', '城市']]
        '''

中文分词

支持三种模式分词

Base模式（默认）

from paddlenlp import Taskflow

seg = Taskflow("word_segmentation")
seg("第十四届全运会在西安举办")
>>> ['第十四届', '全运会', '在', '西安', '举办']

seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
>>> [['第十四届', '全运会', '在', '西安', '举办'], ['三亚', '是', '一个', '美丽', '的', '城市']]

快速模式

利用『结巴』中文分词工具，实现文本快速切分。

from paddlenlp import Taskflow

seg = Taskflow("word_segmentation", mode="fast")
seg("第十四届全运会在西安举办")
>>> ['第十四届', '全运会', '在', '西安', '举办']

精确模式

试图将句子中的实体词完整切分，分词精确度高。

seg = Taskflow("word_segmentation", mode="accurate")
seg("李伟拿出具有科学性、可操作性的《陕西省高校管理体制改革实施方案》")
>>> ['李伟', '拿出', '具有', '科学性', '、', '可操作性', '的', '《', '陕西省高校管理体制改革实施方案', '》']

自定义词典

快速模式词典载入方式：

用户可以在词典文件每一行有两个部分：词语、词频（可省略），用空格隔开。词频省略则自动计算能保证分出该词的词频。

词典文件user_dict.txt示例：

新冠肺炎 8
国家卫健委

"国家卫健委修订完成了新冠肺炎诊疗方案"原本的输出结果为：

['国家', '卫健委', '修订', '完成', '了', '新冠', '肺炎', '诊疗', '方案']

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_seg = Taskflow("word_segmentation", mode="fast", user_dict="user_dict.txt")
my_seg("国家卫健委修订完成了新冠肺炎诊疗方案")
>>> ['国家卫健委', '修订', '完成', '了', '新冠肺炎', '诊疗', '方案']

Base、精确模式词典载入方式：

词典文件每一行表示一个自定义item。

词典文件user_dict.txt示例：

平原上的火焰
年 末

以默认模型为例，"平原上的火焰计划于年末上映"原本的输出结果为：

['平原', '上', '的', '火焰', '计划', '于', '年末', '上映']

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_seg = Taskflow("word_segmentation", user_dict="user_dict.txt")
my_seg("平原上的火焰计划于年末上映")
>>> ['平原上的火焰', '计划', '于', '年', '末', '上映']

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。

词性标注

from paddlenlp import Taskflow

tag = Taskflow("pos_tagging")
tag("第十四届全运会在西安举办")
>>>[('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')]

tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
>>> [[('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')], [('三亚', 'LOC'), ('是', 'v'), ('一个', 'm'), ('美丽', 'a'), ('的', 'u'), ('城市', 'n')]]

标签集合：

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

自定义词典

用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成，单词后面可以添加自定义标签，格式为item/tag，如果不添加自定义标签，则使用模型默认标签。

词典文件user_dict.txt示例：

赛里木湖/LAKE
高/a 山/n
海拔最高
湖 泊

以"赛里木湖是新疆海拔最高的高山湖泊"为例，原本的输出结果为：

[('赛里木湖', 'LOC'), ('是', 'v'), ('新疆', 'LOC'), ('海拔', 'n'), ('最高', 'a'), ('的', 'u'), ('高山', 'n'), ('湖泊', 'n')]

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_tag = Taskflow("pos_tagging", user_dict="user_dict.txt")
my_tag("赛里木湖是新疆海拔最高的高山湖泊")
>>> [('赛里木湖', 'LAKE'), ('是', 'v'), ('新疆', 'LOC'), ('海拔最高', 'n'), ('的', 'u'), ('高', 'a'), ('山', 'n'), ('湖', 'n'), ('泊', 'n')]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。

命名实体识别

支持两种模式

快速模式

from paddlenlp import Taskflow

ner = Taskflow("ner", mode="fast")
ner("三亚是一个美丽的城市")
>>> [('三亚', 'LOC'), ('是', 'v'), ('一个', 'm'), ('美丽', 'a'), ('的', 'u'), ('城市', 'n')]

精确模式（默认）

from paddlenlp import Taskflow

ner = Taskflow("ner")
ner("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
>>> [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]

ner(["热梅茶是一道以梅子为主要原料制作的茶饮", "《孤女》是2010年九州出版社出版的小说，作者是余兼羽"])
>>> [[('热梅茶', '饮食类_饮品'), ('是', '肯定词'), ('一道', '数量词'), ('以', '介词'), ('梅子', '饮食类'), ('为', '肯定词'), ('主要原料', '物体类'), ('制作', '场景事件'), ('的', '助词'), ('茶饮', '饮食类_饮品')], [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]]

只返回实体/概念词：

from paddlenlp import Taskflow

ner = Taskflow("ner", mode="accurate", entity_only=True)
ner("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
>>> [('孤女', '作品类_实体'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('小说', '作品类_概念'), ('作者', '人物类_概念'), ('余兼羽', '人物类_实体')]

自定义词典

词典文件user_dict.txt示例：

长津湖/电影类_实体
收/词汇用语 尾/术语类
最 大
海外票仓

以"《长津湖》收尾，北美是最大海外票仓"为例，原本的输出结果为：

[('《', 'w'), ('长津湖', '作品类_实体'), ('》', 'w'), ('收尾', '场景事件'), ('，', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最大', '修饰词'), ('海外', '场所类'), ('票仓', '词汇用语')]

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_ner = Taskflow("ner", user_dict="user_dict.txt")
my_ner("《长津湖》收尾，北美是最大海外票仓")
>>> [('《', 'w'), ('长津湖', '电影类_实体'), ('》', 'w'), ('收', '词汇用语'), ('尾', '术语类'), ('，', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最', '修饰词'), ('大', '修饰词'), ('海外票仓', '场所类')]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。
entity_only：是否返回所有词性标签；若设置为True，则只返回实体/概念词；默认为False。

文本纠错

from paddlenlp import Taskflow

corrector = Taskflow("text_correction")
corrector('遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。')
>>> [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}]

corrector(['遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。',
                '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。'])
>>> [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}, {'source': '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。', 'target': '人生就是如此，经过磨练才能让自己更加茁壮，才能使自己更加乐观。', 'errors': [{'position': 18, 'correction': {'拙': '茁'}}]}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
task_path：自定义任务路径，默认为None。

句法分析

from paddlenlp import Taskflow

ddp = Taskflow("dependency_parsing")
ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}]

ddp(["9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫", "他送了一本书"])
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}, {'word': ['他', '送', '了', '一本', '书'], 'head': [2, 0, 2, 5, 2], 'deprel': ['SBV', 'HED', 'MT', 'ATT', 'VOB']}]

输出概率值和词性标签:

ddp = Taskflow("dependency_parsing", prob=True, use_pos=True)
ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什', '球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 7, 7, 6, 6, 7, 0, 9, 10, 7], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ATT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB'], 'postag': ['TIME', 'TIME', 'PER', 'p', 'PER', 'n', 'v', 'LOC', 'n', 'PER'], 'prob': [0.79, 0.98, 1.0, 0.49, 0.97, 0.86, 1.0, 0.85, 0.97, 0.99]}]

使用ddparser-ernie-1.0进行预测:

ddp = Taskflow("dependency_parsing", model="ddparser-ernie-1.0")
ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}]

使用分词结果来输入:

ddp = Taskflow("dependency_parsing")
ddp.from_segments([['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫']])
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}]

依存关系可视化：

from paddlenlp import Taskflow

ddp = Taskflow("dependency_parsing", return_visual=True)
result = ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")[0]['visual']
import cv2
cv2.imwrite('test.png', result)

标注关系说明：

Label	关系类型	说明	示例
SBV	主谓关系	主语与谓词间的关系	他送了一本书(他<–送)
VOB	动宾关系	宾语与谓词间的关系	他送了一本书(送–>书)
POB	介宾关系	介词与宾语间的关系	我把书卖了（把–>书）
ADV	状中关系	状语与中心词间的关系	我昨天买书了（昨天<–买）
CMP	动补关系	补语与中心词间的关系	我都吃完了（吃–>完）
ATT	定中关系	定语与中心词间的关系	他送了一本书(一本<–书)
F	方位关系	方位词与中心词的关系	在公园里玩耍(公园–>里)
COO	并列关系	同类型词语间关系	叔叔阿姨(叔叔–>阿姨)
DBL	兼语结构	主谓短语做宾语的结构	他请我吃饭(请–>我，请–>吃饭)
DOB	双宾语结构	谓语后出现两个宾语	他送我一本书(送–>我，送–>书)
VV	连谓结构	同主语的多个谓词间关系	他外出吃饭(外出–>吃饭)
IC	子句结构	两个结构独立或关联的单句	你好，书店怎么走？(你好<–走)
MT	虚词成分	虚词与中心词间的关系	他送了一本书(送–>了)
HED	核心关系	指整个句子的核心

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
model：选择任务使用的模型，可选有ddparser，ddparser-ernie-1.0和ddparser-ernie-gram-zh。
tree：确保输出结果是正确的依存句法树，默认为True。
prob：是否输出每个弧对应的概率值，默认为False。
use_pos：是否返回词性标签，默认为False。
use_cuda：是否使用GPU进行切词，默认为False。
return_visual：是否返回句法树的可视化结果，默认为False。
task_path：自定义任务路径，默认为None。

情感分析

使用BiLSTM模型：

from paddlenlp import Taskflow

senta = Taskflow("sentiment_analysis")
senta("这个产品用起来真的很流畅，我非常喜欢")
>>> [{'text': '这个产品用起来真的很流畅，我非常喜欢', 'label': 'positive', 'score': 0.9938690066337585}]

senta(["这个产品用起来真的很流畅，我非常喜欢", "作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间"])
>>> [{'text': '这个产品用起来真的很流畅，我非常喜欢', 'label': 'positive', 'score': 0.9938690066337585}, {'text': '作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间', 'label': 'positive', 'score': 0.985750675201416}]

使用SKEP情感分析预训练模型进行预测：

senta = Taskflow("sentiment_analysis", model="skep_ernie_1.0_large_ch")
senta("作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。")
>>> [{'text': '作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。', 'label': 'positive', 'score': 0.984320878982544}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
model：选择任务使用的模型，可选有bilstm和skep_ernie_1.0_large_ch。
task_path：自定义任务路径，默认为None。

文本相似度

from paddlenlp import Taskflow

similarity = Taskflow("text_similarity")
similarity([["世界上什么东西最小", "世界上什么东西最小？"]])
>>> [{'text1': '世界上什么东西最小', 'text2': '世界上什么东西最小？', 'similarity': 0.992725}]

similarity([["光眼睛大就好看吗", "眼睛好看吗？"], ["小蝌蚪找妈妈怎么样", "小蝌蚪找妈妈是谁画的"]])
>>> [{'text1': '光眼睛大就好看吗', 'text2': '眼睛好看吗？', 'similarity': 0.74502707}, {'text1': '小蝌蚪找妈妈怎么样', 'text2': '小蝌蚪找妈妈是谁画的', 'similarity': 0.8192149}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为128。
task_path：自定义任务路径，默认为None。

知识挖掘-词类知识标注

from paddlenlp import Taskflow

wordtag = Taskflow("knowledge_mining")
wordtag("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
>>> [{'text': '《孤女》是2010年九州出版社出版的小说，作者是余兼羽', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '孤女', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 2}, {'item': '》', 'offset': 3, 'wordtag_label': 'w', 'length': 1}, {'item': '是', 'offset': 4, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '2010年', 'offset': 5, 'wordtag_label': '时间类', 'length': 5, 'termid': '时间阶段_cb_2010年'}, {'item': '九州出版社', 'offset': 10, 'wordtag_label': '组织机构类', 'length': 5, 'termid': '组织机构_eb_九州出版社'}, {'item': '出版', 'offset': 15, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_出版'}, {'item': '的', 'offset': 17, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '小说', 'offset': 18, 'wordtag_label': '作品类_概念', 'length': 2, 'termid': '小说_cb_小说'}, {'item': '，', 'offset': 20, 'wordtag_label': 'w', 'length': 1}, {'item': '作者', 'offset': 21, 'wordtag_label': '人物类_概念', 'length': 2, 'termid': '人物_cb_作者'}, {'item': '是', 'offset': 23, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '余兼羽', 'offset': 24, 'wordtag_label': '人物类_实体', 'length': 3}]}]

wordtag(["热梅茶是一道以梅子为主要原料制作的茶饮",
         "《孤女》是2010年九州出版社出版的小说，作者是余兼羽"])
>>> [{'text': '热梅茶是一道以梅子为主要原料制作的茶饮', 'items': [{'item': '热梅茶', 'offset': 0, 'wordtag_label': '饮食类_饮品', 'length': 3}, {'item': '是', 'offset': 3, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '一道', 'offset': 4, 'wordtag_label': '数量词', 'length': 2}, {'item': '以', 'offset': 6, 'wordtag_label': '介词', 'length': 1, 'termid': '介词_cb_以'}, {'item': '梅子', 'offset': 7, 'wordtag_label': '饮食类', 'length': 2, 'termid': '饮食_cb_梅'}, {'item': '为', 'offset': 9, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_为'}, {'item': '主要原料', 'offset': 10, 'wordtag_label': '物体类', 'length': 4, 'termid': '物品_cb_主要原料'}, {'item': '制作', 'offset': 14, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_制作'}, {'item': '的', 'offset': 16, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '茶饮', 'offset': 17, 'wordtag_label': '饮食类_饮品', 'length': 2, 'termid': '饮品_cb_茶饮'}]}, {'text': '《孤女》是2010年九州出版社出版的小说，作者是余兼羽', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '孤女', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 2}, {'item': '》', 'offset': 3, 'wordtag_label': 'w', 'length': 1}, {'item': '是', 'offset': 4, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '2010年', 'offset': 5, 'wordtag_label': '时间类', 'length': 5, 'termid': '时间阶段_cb_2010年'}, {'item': '九州出版社', 'offset': 10, 'wordtag_label': '组织机构类', 'length': 5, 'termid': '组织机构_eb_九州出版社'}, {'item': '出版', 'offset': 15, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_出版'}, {'item': '的', 'offset': 17, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '小说', 'offset': 18, 'wordtag_label': '作品类_概念', 'length': 2, 'termid': '小说_cb_小说'}, {'item': '，', 'offset': 20, 'wordtag_label': 'w', 'length': 1}, {'item': '作者', 'offset': 21, 'wordtag_label': '人物类_概念', 'length': 2, 'termid': '人物_cb_作者'}, {'item': '是', 'offset': 23, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '余兼羽', 'offset': 24, 'wordtag_label': '人物类_实体', 'length': 3}]}]

标签集合：

知识挖掘-词类知识标注任务共包含66种词性及专名类别标签，标签集合如下表

WordTag标签集合人物类_实体物体类生物类_动物医学术语类链接地址肯定词人物类_概念物体类_兵器品牌名术语类_生物体个性特征否定词作品类_实体物体类_化学物质场所类疾病损伤类感官特征数量词作品类_概念其他角色类场所类_交通场所疾病损伤类_植物病虫害场景事件叹词组织机构类文化类位置方位宇宙类介词拟声词组织机构类_企事业单位文化类_语言文字世界地区类事件类介词_方位介词修饰词组织机构类_医疗卫生机构文化类_奖项赛事活动饮食类时间类助词外语单词组织机构类_国家机关文化类_制度政策协议饮食类_菜品时间类_特殊日代词英语单词组织机构类_体育组织机构文化类_姓氏与人名饮食类_饮品术语类连词汉语拼音组织机构类_教育组织机构生物类药物类术语类_符号指标类副词词汇用语组织机构类_军事组织机构生物类_植物药物类_中药信息资料疑问词w(标点)

自定义词典

词典文件user_dict.txt示例：

长津湖/电影类_实体
收/词汇用语 尾/术语类
最 大
海外票仓

以"《长津湖》收尾，北美是最大海外票仓"为例，原本的输出结果为：

[{'text': '《长津湖》收尾，北美是最大海外票仓', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '长津湖', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 3, 'termid': '影视作品_eb_长津湖'}, {'item': '》', 'offset': 4, 'wordtag_label': 'w', 'length': 1}, {'item': '收尾', 'offset': 5, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_收尾'}, {'item': '，', 'offset': 7, 'wordtag_label': 'w', 'length': 1}, {'item': '北美', 'offset': 8, 'wordtag_label': '世界地区类', 'length': 2, 'termid': '世界地区_cb_北美'}, {'item': '是', 'offset': 10, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '最大', 'offset': 11, 'wordtag_label': '修饰词', 'length': 2, 'termid': '修饰词_cb_最大'}, {'item': '海外', 'offset': 13, 'wordtag_label': '场所类', 'length': 2, 'termid': '区域场所_cb_海外'}, {'item': '票仓', 'offset': 15, 'wordtag_label': '词汇用语', 'length': 2}]}]

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_wordtag = Taskflow("knowledge_mining", user_dict="user_dict.txt")
my_wordtag("《长津湖》收尾，北美是最大海外票仓")
>>> [{'text': '《长津湖》收尾，北美是最大海外票仓', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '长津湖', 'offset': 1, 'wordtag_label': '电影类_实体', 'length': 3}, {'item': '》', 'offset': 4, 'wordtag_label': 'w', 'length': 1}, {'item': '收', 'offset': 5, 'wordtag_label': '词汇用语', 'length': 1}, {'item': '尾', 'offset': 6, 'wordtag_label': '术语类', 'length': 1, 'termid': '动物体构造_cb_动物尾巴'}, {'item': '，', 'offset': 7, 'wordtag_label': 'w', 'length': 1}, {'item': '北美', 'offset': 8, 'wordtag_label': '世界地区类', 'length': 2, 'termid': '世界地区_cb_北美'}, {'item': '是', 'offset': 10, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '最', 'offset': 11, 'wordtag_label': '修饰词', 'length': 1}, {'item': '大', 'offset': 12, 'wordtag_label': '修饰词', 'length': 1, 'termid': '修饰词_cb_大'}, {'item': '海外票仓', 'offset': 13, 'wordtag_label': '场所类', 'length': 4}]}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
linking：实现基于词类的linking，默认为True。
task_path：自定义任务路径，默认为None。
user_dict：用户自定义词典文件，默认为None。

知识挖掘-名词短语标注

from paddlenlp import Taskflow

nptag = Taskflow("knowledge_mining", model="nptag")
nptag("糖醋排骨")
>>> [{'text': '糖醋排骨', 'label': '菜品'}]

nptag(["糖醋排骨", "红曲霉菌"])
>>> [{'text': '糖醋排骨', 'label': '菜品'}, {'text': '红曲霉菌', 'label': '微生物'}]

# 使用`linking`输出粗粒度类别标签`category`，即WordTag的词汇标签。
nptag = Taskflow("knowledge_mining", model="nptag", linking=True)
nptag(["糖醋排骨", "红曲霉菌"])
>>> [{'text': '糖醋排骨', 'label': '菜品', 'category': '饮食类_菜品'}, {'text': '红曲霉菌', 'label': '微生物', 'category': '生物类_微生物'}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为64。
linking：实现与WordTag类别标签的linking，默认为False。
task_path：自定义任务路径，默认为None。

生成式问答

from paddlenlp import Taskflow

qa = Taskflow("question_answering")
qa("中国的国土面积有多大？")
>>> [{'text': '中国的国土面积有多大？', 'answer': '960万平方公里。'}]

qa(["中国国土面积有多大？", "中国的首都在哪里？"])
>>> [{'text': '中国国土面积有多大？', 'answer': '960万平方公里。'}, {'text': '中国的首都在哪里？', 'answer': '北京。'}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。

智能写诗

from paddlenlp import Taskflow

poetry = Taskflow("poetry_generation")
poetry("林密不见人")
>>> [{'text': '林密不见人', 'answer': ',但闻人语响。'}]

poetry(["林密不见人", "举头邀明月"])
>>> [{'text': '林密不见人', 'answer': ',但闻人语响。'}, {'text': '举头邀明月', 'answer': ',低头思故乡。'}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。

开放域对话

支持两种模式

非交互模式：

from paddlenlp import Taskflow

dialogue = Taskflow("dialogue")
dialogue(["吃饭了吗"])
>>> ['刚吃完饭,你在干什么呢?']

dialogue(["你好", "吃饭了吗"], ["你是谁？"])
>>> ['吃过了,你呢', '我是李明啊']

交互模式：

交互模式下，Taskflow具备多轮对话记忆功能。

from paddlenlp import Taskflow

dialogue = Taskflow("dialogue")
# 输入`exit`可退出交互模式
dialogue.interactive_mode(max_turn=3)

'''
[Human]:你好
[Bot]:你好,很高兴认识你,我想问你一下,你喜欢运动吗?
[Human]:喜欢
[Bot]:那你喜欢什么运动啊?
[Human]:篮球,你喜欢篮球吗
[Bot]:当然了,我很喜欢打篮球的
'''

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为512。
max_turn：仅在交互模式有效，表示任务能记忆的对话轮数；当max_turn为1时，模型只能记住当前对话，无法获知之前的对话内容。

自定义任务

Taskflow提供了定制接口来使用自己的数据对模型进行微调/训练，适配任务如下：

任务名称	默认路径
`Taskflow("word_segmentation", mode="base")`	`$HOME/.paddlenlp/taskflow/word_segmentation/lac`	示例
`Taskflow("word_segmentation", mode="accurate")`	`$HOME/.paddlenlp/taskflow/word_segmentation/wordtag`	示例
`Taskflow("ner", mode="fast")`	`$HOME/.paddlenlp/taskflow/ner/lac`	示例
`Taskflow("ner", mode="accurate")`	`$HOME/.paddlenlp/taskflow/ner/wordtag`	示例
`Taskflow("text_correction", model="csc-ernie-1.0")`	`$HOME/.paddlenlp/taskflow/text_correction/csc-ernie-1.0`	示例
`Taskflow("dependency_parsing", model="ddparser")`	`$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser`	示例
`Taskflow("dependency_parsing", model="ddparser-ernie-1.0")`	`$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser-ernie-1.0`	示例
`Taskflow("dependency_parsing", model="ddparser-ernie-gram-zh")`	`$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser-ernie-gram-zh`	示例
`Taskflow("sentiment_analysis", model="bilstm")`	`$HOME/.paddlenlp/taskflow/sentiment_analysis/bilstm`	暂无
`Taskflow("sentiment_analysis", model="skep_ernie_1.0_large_ch")`	`$HOME/.paddlenlp/taskflow/sentiment_analysis/skep_ernie_1.0_large_ch`	示例
`Taskflow("knowledge_mining", model="wordtag")`	`$HOME/.paddlenlp/taskflow/knowledge_mining/wordtag`	示例
`Taskflow("knowledge_mining", model="nptag")`	`$HOME/.paddlenlp/taskflow/knowledge_mining/nptag`	示例

定制任务示例

这里我们以命名实体识别Taskflow("ner", mode="accurate")为例，展示如何定制自己的模型。

任务的默认路径为$HOME/.paddlenlp/taskflow/ner/wordtag/，该默认路径包含以下文件:

$HOME/.paddlenlp/taskflow/ner/wordtag/
├── model_state.pdparams # 默认模型参数文件
├── model_config.json # 默认模型配置文件
└── tags.txt # 默认标签文件

参考表中对应示例准备数据集和标签文件tags.txt，执行相应训练脚本得到自己的model_state.pdparams和model_config.json。
通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致:

custom_task_path/
├── model_state.pdparams # 定制模型参数文件
├── model_config.json # 定制模型配置文件
└── tags.txt # 定制标签文件

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_ner = Taskflow("ner", mode="accurate", task_path="./custom_task_path/")

FAQ

Q1 Taskflow如何修改任务保存路径？

A: Taskflow默认会将任务相关模型等文件保存到$HOME/.paddlenlp下，可以在任务初始化的时候通过home_path自定义修改保存路径。

示例：

from paddlenlp import Taskflow

ner = Taskflow("ner", home_path="/workspace")

通过以上方式即可将ner任务相关文件保存至/workspace路径下。

参考资料

fxsjy/jieba

你可能感兴趣的:(python,自然语言处理,python)

【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
python pywebview + vue3 做桌面端妃衣 python 开发语言
pythonpywebview+vue3做桌面端Api.py#传给前端的api对象,定义了一个可以通过js调用退出当前应用的函数classApi:def__init__(self)->None:self._window=None#java运行的线程self.process=Nonedefset_process(self,_process):self.process=_processdefset_w
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
PyCharm 高效入门指南：从安装到进阶，解锁 Python 开发全流程
作为Python开发者的利器，PyCharm的安装与配置是开启高效编程之旅的第一步。面对Community和Professional两个版本，该如何选择呢？Community版是免费开源的，适合初学者和简单项目开发，包含基础的Python开发功能；而Professional版虽收费，但功能更强大，支持Web开发、数据库连接等高级功能，适合专业开发者和复杂项目。1.安装与配置下载与安装下载PyCha
嵌入式知识篇---机械臂的运动学结算（简单2自由度） Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇人工智能机械臂解算
机械臂的“解算”本质是运动学解算，核心是解决“关节角度”和“末端位置”的互转问题。下面用最通俗的方式解释，并结合2自由度平面机械臂（结构最简单，适合入门）给出Python和ESP32代码，以及参数细节。一、机械臂运动学解算的通俗原理想象你有一条“简化的手臂”：只有大臂和小臂两个关节（类似人类的上臂和前臂），只能在桌面（X-Y平面）内运动。正解：知道“大臂转30°，小臂转60°”，算出“手掌”的位置
老码农和你一起学AI：Python系列-Pandas 并行计算 chilavert318 熬之滴水穿石 pandas python
但凡用到科学计算，Pandas几乎是绕不开的工具——它以简洁的API、灵活的数据操作能力成为数据处理的“瑞士军刀”。但随着数据量增长（比如从10万行到1000万行），你可能会发现：原本流畅的代码突然变慢了，一个简单的apply操作要等好几分钟，读取大文件时进度条仿佛凝固了。这不是你的代码有问题，而是原生Pandas的“单线程”基因在多核时代遇到了瓶颈。并行计算正是解决这个问题的核心方案。简单来说，
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
PYTHON日志神器nb_log详细介绍和使用说明
个人主页：云纳星辰怀自在座右铭：“所谓坚持，就是觉得还有希望！”Python的nb_log是一个功能强大且高度灵活的日志记录模块，基于Python内置的logging模块封装，解决了传统日志库的常见痛点（如重复打印、配置复杂等），并增加了多项创新特性。一、核心特性与优势智能print增强自动捕获所有print输出，添加文件名+行号标记（如[demo.py:18]）支持IDE控制台点击跳转源码位置开
基于 Python 对于Nacos 服务订阅流程的深度剖析 chilavert318 熬之滴水穿石 python 开发语言 nacos
记得去年在外省给某事业单位给科技处的领导作关于国产化微服务项目的汇报，该处长要我详细讲解一下Nacos的来龙去脉。我问他为什么要单独了解这块，他说现在国产化已经是趋势了，他其实也想深度的了解一下，这款产品是如何演化而来，希望通过了解该产品的来龙去脉深度思索一下，他所辖范围之内系统国产化的一些思路。记得当时我也是做足了工作，然后选择一个时间给他单独汇报，会后领导反响还不错，领导总结道：Nacos适应
Python爬取网易云音乐歌手歌曲和歌单！推荐好听的歌吗？爬遍天下无敌手 Python http https python ssl servlet
仅供学习参考Python爬取网易云音乐网易云音乐歌手歌曲和歌单，并下载到本地①找到要下载歌手歌曲的链接，这里用的是：https://music.163.com/#/artist?id=10559然后更改你要保存的目录，目录要先建立好文件夹，例如我的是保存在D盘-360下载-网易云热歌榜文件夹内，就可以完成下载。如果文件夹没有提前建好，会报错[Errno2]Nosuchfileordirectory
python class是什么,python中的class是什么
1、概念用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。2、类定义的语法classClassName:...3、实例为了代码的编写方便简洁，引入了类的定义；一般，使用class语句来创建一个新类，class之后为类的名称(通常首字母大写)并以冒号结尾，例如:、classTicket():def__init__(self,checi,fstation,tstat
Python中的模块和作用域全新的饭
模块的定义模块是写有python源代码的文件（其中定义了一组函数和其他对象）或c、c++编译的对象文件模块名称就是文件名模块存在的意义（使用模块的好处）可通过使用模块避免名称冲突（两个模块中可定义相同名称的函数）模块使python代码更易于管理（标准python函数位于特殊模块而非语言核心中，因此用户可根据需要加载目标模块）添加自己的模块将自己的模块添加到sys中使之可以通过使用import导入（
python画地图柱状图,小白学Python（16）——pyecharts 绘制地理图表 Geo 都灵Turin python画地图柱状图
Geo-基本示例1fromexample.commonsimportFaker2frompyechartsimportoptionsasopts3frompyecharts.chartsimportGeo4frompyecharts.globalsimportChartType,SymbolType56geo=(7Geo()8.add_schema(maptype="china")9.add("g
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

paddlenlp 任务清单 中文分词、中文纠错、文本相似度、情感分析、词性标注等一键

PaddleNLP Taskflow

介绍

任务清单

安装

环境依赖

用法

查看使用示例

中文分词

可配置参数说明

词性标注

可配置参数说明

命名实体识别

可配置参数说明

文本纠错

可配置参数说明

句法分析

可配置参数说明

情感分析

可配置参数说明

文本相似度

可配置参数说明

知识挖掘-词类知识标注

可配置参数说明

知识挖掘-名词短语标注

可配置参数说明

生成式问答

可配置参数说明

智能写诗

可配置参数说明

开放域对话

可配置参数说明

自定义任务

定制任务示例

FAQ

Q1 Taskflow如何修改任务保存路径？

参考资料

你可能感兴趣的:(python,自然语言处理,python)

paddlenlp 任务清单中文分词、中文纠错、文本相似度、情感分析、词性标注等一键