AI科技大本营

从0到1 | 手把手教你如何使用哈工大NLP工具——PyLTP！

作者 | 杨秀璋

来源 | CSDN 博客（CSDN id：Eastmount）

（本文经作者授权，此系列文章整理后微信平台首发于AI科技大本营）

【导语】此文是作者基于 Python 构建知识图谱的系列实践教程，具有一定创新性和实用性。文章前半部分内容先介绍哈工大 pytltp 工具，包括安装过程、中文分词、词性标注和实体识别的一些基本用法；后半部分内容讲解词性标注、实体识别、依存句法分析和语义角色标注及代码实现。

【上篇】

一、哈工大LTP

LTP（Language Technology Platform）中文为语言技术平台，是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块（包括词法、句法、语义等6项中文处理核心技术），以及基于动态链接库（Dynamic Link Library，DLL）的应用程序接口，可视化工具，并且能够以网络服务的形式进行使用。

LTP开发文档：

https://ltp.readthedocs.io/zh_CN/latest/index.html

语言云LTP-Cloud：

http://www.ltp-cloud.com/

模型下载地址：

http://ltp.ai/download.html

在线演示案例如下图所示：

相信从事NLP、数据挖掘、知识图谱等领域的博友都知道哈工大LTP、同义词词林这些工具，该系列文章也会介绍相关的知识，希望对您有所帮助。

此外，再补充另一个在线NLP分析系统，感兴趣的朋友们也可以试一下~

http://ictclas.nlpir.org/nlpir/

二.pyltp 终极安装

下面介绍 Windows10 Python 环境下 LTP 的扩展包 pyltp 安装过程。

1.常见错误

大家通常会调用 “pip install pyltp” 安装该扩展包，但会遇到各种错误，下面介绍一种可行的方法。

2.安装pyltp包

首先，安装Python3.6环境，如下图所示“python-3.6.7-amd64.exe”。

接着，下载pyltp扩展包的whl文件至本地，调用CMD环境进行安装，注意需要将所在文件的路径写清楚。

pyltp-0.2.1-cp35-cp35m-win_amd64.whl （对应Python3.5版本）	
pyltp-0.2.1-cp36-cp36m-win_amd64.whl （对应Python3.6版本）	
pip install C:\Python36\Scripts\pyltp-0.2.1-cp36-cp36m-win_amd64.whl

whl下载地址：

https://download.csdn.net/download/qq_22521211/10460778

安装过程下图所示，此时表示pyltp安装成功。

注意，如果报错“error：Microsoft Visual C++ 9.0 is required”，则安装下面exe文件。

3.下载模型文件

最后需要下载模型文件，其下载地址为：

百度云

https://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569#list/path=%2F

七牛云

http://ltp.ai/download.html

本文下载3.4版本的模型，下载解压如下图所示：

模型对应的说明如下图所示：

在编写代码时，需要导入指定文件夹中的模型，再进行中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等分析。例如：

#词性标注	
pdir='AgriKG\\ltp\\pos.model'	
pos = Postagger()	
pos.load(pdir)	
postags = pos.postag(word) #基于分词得到的list将下词性标注	
postags = list(postags)	
print(u"词性:", postags)

分词、词性标注、句法分析一系列任务之间存在依赖关系。举例来讲，对于词性标注，必须在分词结果之上进行才有意义。LTP中提供的5种分析之间的依赖关系如下所示：

讲到这里，哈工大pyltp基本安装成功，接下来将介绍它的基本用法。

基础性文章，希望对入门者有所帮助。

三.中文分句和分词

官方文档：

https://pyltp.readthedocs.io/zh_CN/latest/api.html#id13

实现原理：

https://ltp.readthedocs.io/zh_CN/latest/theory.html#customized-cws-reference-label

1.中文分句

# -*- coding: utf-8 -*-	
from pyltp  import SentenceSplitter	
from pyltp import Segmentor	
from pyltp import Postagger	
from pyltp import NamedEntityRecognizer	
#分句	
text = "贵州财经大学要举办大数据比赛吗？那让欧几里得去问问看吧！其实是在贵阳花溪区吧。"	
sents = SentenceSplitter.split(text)  	
print('\n'.join(sents))

中文分句的输出结果如下所示：

贵州财经大学要举办大数据比赛吗？	
那让欧几里得去问问看吧！	
其实是在贵阳花溪区吧。

2.中文分词

# -*- coding: utf-8 -*-	
from pyltp  import SentenceSplitter	
from pyltp import Segmentor	
from pyltp import Postagger	
from pyltp import NamedEntityRecognizer	
	
text = "贵州财经大学要举办大数据比赛吗？那让欧几里得去问问看吧！其实是在贵阳花溪区吧。"	
	
#中文分词	
segmentor = Segmentor()  #初始化实例	
segmentor.load("AgriKG\\ltp\\cws.model")  #加载模型	
words = segmentor.segment(text)  #分词	
print(type(words))	
print(' '.join(words))	
segmentor.release()  #释放模型

输出结果如下所示（人工换行）：

	
贵州 财经 大学 要 举办 大 数据 比赛 吗 ？ 	
那 让 欧 几 里 得 去 问问 看 吧 ！ 	
其实 是 在 贵阳 花溪区 吧 。

此时的分词效果并不理想，如 “大数据” 分为了“大”、“数据”，“欧几里得”分为了“欧”、“几”、“里”、“得”，“贵阳花溪区”分为了“贵阳”、“花溪区”等，故需要引入词典进行更为准确的分词。同时，返回值类型是native的VectorOfString类型，可以使用list转换成Python的列表类型。

3.导入词典中文分词

pyltp 分词支持用户使用自定义词典。分词外部词典本身是一个文本文件（plain text），每行指定一个词，编码同样须为 UTF-8，比如“word”文件，如下图所示：

完整代码如下所示：

# -*- coding: utf-8 -*-	
from pyltp  import SentenceSplitter	
from pyltp import Segmentor	
from pyltp import Postagger	
from pyltp import NamedEntityRecognizer	
	
ldir='AgriKG\\ltp\\cws.model'  #分词模型	
dicdir='word'                           #外部字典	
text = "贵州财经大学要举办大数据比赛吗？那让欧几里得去问问看吧！其实是在贵阳花溪区吧。"	
	
#中文分词	
segmentor = Segmentor()                             #初始化实例	
segmentor.load_with_lexicon(ldir, 'word')    #加载模型	
words = segmentor.segment(text)                 #分词	
print(' '.join(words))                                     #分词拼接	
words = list(words)                                      #转换list	
print(u"分词:", words)	
segmentor.release()                                      #释放模型

输出结果如下所示，它将“大数据”、“欧几里得”、“贵阳花溪区”进行了词典匹配，再进行相关分词，但是“贵州财经大学”仍然划分为“贵州”、“财经”、“大学”。Why？

贵州 财经 大学 要 举办 大数据 比赛 吗 ？ 	
那 让 欧几里得 去 问问 看 吧 ！ 	
其实 是 在 贵阳花溪区 吧 。	
分词: ['贵州', '财经', '大学', '要', '举办', '大数据', '比赛', '吗', '？', 	
'那', '让', '欧几里得', '去', '问问', '看', '吧', '！', 	
'其实', '是', '在', '贵阳花溪区', '吧', '。']

4.个性化分词

个性化分词是 LTP 的特色功能。个性化分词为了解决测试数据切换到如小说、财经等不同于新闻领域的领域。在切换到新领域时，用户只需要标注少量数据。个性化分词会在原有新闻数据基础之上进行增量训练。从而达到即利用新闻领域的丰富数据，又兼顾目标领域特殊性的目的。

pyltp 支持使用用户训练好的个性化模型。关于个性化模型的训练需使用 LTP，详细介绍和训练方法请参考个性化分词。在 pyltp 中使用个性化分词模型的示例如下：

# -*- coding: utf-8 -*-	
from pyltp import CustomizedSegmentor	
customized_segmentor = CustomizedSegmentor()      #初始化实例	
customized_segmentor.load('基本模型', '个性模型')   #加载模型	
words = customized_segmentor.segment('亚硝酸盐是一种化学物质')	
print '\t'.join(words)	
customized_segmentor.release()

【下篇】

词性标注、实体识别、依存句法分析和语义角色标注及代码实现

一.词性标注

词性标注（Part-Of-Speech tagging, POS tagging）也被称为语法标注（grammatical tagging）或词类消疑（word-category disambiguation），是语料库语言学（corpus linguistics）中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

pyltp词性标注与分词模块相同，将词性标注任务建模为基于词的序列标注问题。对于输入句子的词序列，模型给句子中的每个词标注一个标识词边界的标记。在LTP中，采用的北大标注集。

完整代码：

# -*- coding: utf-8 -*-	
from pyltp  import SentenceSplitter	
from pyltp import Segmentor	
from pyltp import Postagger	
from pyltp import NamedEntityRecognizer	
	
ldir='AgriKG\\ltp\\cws.model'  #分词模型	
dicdir='word'                           #外部字典	
text = "贵州财经大学要举办大数据比赛吗？"	
	
#中文分词	
segmentor = Segmentor()                             #初始化实例	
segmentor.load_with_lexicon(ldir, 'word')    #加载模型	
words = segmentor.segment(text)                 #分词	
print(text)	
print(' '.join(words))                                     #分词拼接	
words = list(words)                                      #转换list	
print(u"分词:", words)	
segmentor.release()                                      #释放模型	
	
#词性标注	
pdir='AgriKG\\ltp\\pos.model'	
pos = Postagger()                                        #初始化实例	
pos.load(pdir)                                              #加载模型	
	
postags = pos.postag(words)                        #词性标注	
postags = list(postags)	
print(u"词性:", postags)	
pos.release()                                               #释放模型	
	
data = {"words": words, "tags": postags}	
print(data)

输出结果如下图所示，“贵州”词性为“ns”（地理名词），“财经”词性为“n”（一般名词），“举办”词性为“v”（动词），“吗”词性为“u”（助词），“？”词性为“wp”（标点）。

贵州财经大学要举办大数据比赛吗？	
贵州 财经 大学 要 举办 大数据 比赛 吗 ？	
分词: ['贵州', '财经', '大学', '要', '举办', '大数据', '比赛', '吗', '？']	
词性: ['ns', 'n', 'n', 'v', 'v', 'n', 'v', 'u', 'wp']	
{'words': ['贵州', '财经', '大学', '要', '举办', '大数据', '比赛', '吗', '？'], 	
'tags': ['ns', 'n', 'n', 'v', 'v', 'n', 'v', 'u', 'wp']}

具体词性为：

Tag  Description                                 Example	
a   adjective：形容词                           美丽  	
b   other noun-modifier：其他的修饰名词           大型, 西式  	
c   conjunction：连词                           和, 虽然   	
d   adverb：副词                                很   	
e   exclamation：感叹词                          哎   	
g   morpheme    茨, 甥    	
h   prefix：前缀                                阿, 伪    	
i   idiom：成语                                 百花齐放    	
j   abbreviation：缩写                          公检法 	
k   suffix：后缀                                界, 率    	
m   number：数字                                一, 第一   	
n   general noun：一般名词                       苹果  	
nd  direction noun：方向名词                     右侧      	
nh  person name：人名                           杜甫, 汤姆  	
ni  organization name：公司名                    保险公司，中国银行	
nl  location noun：地点名词                      城郊	
ns  geographical name：地理名词                  北京	
nt  temporal noun：时间名词                      近日, 明代	
nz  other proper noun：其他名词                  诺贝尔奖	
o   onomatopoeia：拟声词                         哗啦	
p   preposition：介词                           在, 把，与	
q   quantity：量词                              个	
r   pronoun：代词                               我们	
u   auxiliary：助词                             的, 地	
v   verb：动词                                  跑, 学习	
wp  punctuation：标点                           ，。！	
ws  foreign words：国外词                       CPU	
x   non-lexeme：不构成词                        萄, 翱	
z  descriptive words 描写，叙述的词             瑟瑟，匆匆

二.命名实体识别

命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

在哈工大Pyltp中，NE识别模块的标注结果采用O-S-B-I-E标注形式，其含义如下（参考）：

LTP中的NE 模块识别三种NE，分别为人名（Nh）、机构名（Ni）、地名（Ns）。

完整代码：

# -*- coding: utf-8 -*-	
from pyltp  import SentenceSplitter	
from pyltp import Segmentor	
from pyltp import Postagger	
from pyltp import NamedEntityRecognizer	
	
ldir='AgriKG\\ltp\\cws.model'  #分词模型	
dicdir='word'                           #外部字典	
text = "贵州财经大学要举办大数据比赛吗？"	
	
#中文分词	
segmentor = Segmentor()                             #初始化实例	
segmentor.load_with_lexicon(ldir, 'word')    #加载模型	
words = segmentor.segment(text)                 #分词	
print(text)	
print(' '.join(words))                                     #分词拼接	
words = list(words)                                      #转换list	
print(u"分词:", words)	
segmentor.release()                                      #释放模型	
	
#词性标注	
pdir='AgriKG\\ltp\\pos.model'	
pos = Postagger()                                        #初始化实例	
pos.load(pdir)                                              #加载模型	
	
postags = pos.postag(words)                        #词性标注	
postags = list(postags)	
print(u"词性:", postags)	
pos.release()                                               #释放模型	
	
data = {"words": words, "tags": postags}	
print(data)	
print(" ")	
	
#命名实体识别	
nermodel='AgriKG\\ltp\\ner.model'	
reg = NamedEntityRecognizer()                    #初始化命名实体实例	
reg.load(nermodel)                                       #加载模型	
netags = reg.recognize(words, postags)         #对分词、词性标注得到的数据进行实体标识	
netags = list(netags)	
print(u"命名实体识别:", netags)	
	
#实体识别结果	
data={"reg": netags,"words":words,"tags":postags}	
print(data)	
reg.release()

输出结果如下图所示，识别出的三个命名实体分别是：“贵州”（B-Ni）表示一个NE开始-机构名，“财经”（I-Ni）表示一个NE中间-机构名，“大学”（E-Ni）表示一个NE结束-机构名。

PS：虽然导入指定词典，但“贵州财经大学”分词仍然被分割，后续研究中。

三.依存句法分析

依存句法是由法国语言学家L.Tesniere最先提出。它将句子分析成一棵依存句法树，描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。如下图所示：

哈工大Pyltp的依存句法关系如下图所示。

参考：

https://ltp.readthedocs.io/zh_CN/latest/appendix.html

完整代码：

# -*- coding: utf-8 -*-	
from pyltp  import SentenceSplitter	
from pyltp import Segmentor	
from pyltp import Postagger	
from pyltp import Parser	
from pyltp import NamedEntityRecognizer	
	
ldir = 'AgriKG\\ltp\\cws.model'  #分词模型	
dicdir = 'word'                           #外部字典	
text = "贵州财经大学要举办大数据比赛吗？"	
	
#中文分词	
segmentor = Segmentor()                             #初始化实例	
segmentor.load_with_lexicon(ldir, 'word')    #加载模型	
words = segmentor.segment(text)                 #分词	
print(text)	
print(' '.join(words))                                     #分词拼接	
words = list(words)                                      #转换list	
print(u"分词:", words)	
segmentor.release()                                      #释放模型	
	
#词性标注	
pdir = 'AgriKG\\ltp\\pos.model'	
pos = Postagger()                                        #初始化实例	
pos.load(pdir)                                              #加载模型	
	
postags = pos.postag(words)                        #词性标注	
postags = list(postags)	
print(u"词性:", postags)	
pos.release()                                               #释放模型	
	
data = {"words": words, "tags": postags}	
print(data)	
print(" ")	
	
#命名实体识别	
nermodel = 'AgriKG\\ltp\\ner.model'	
reg = NamedEntityRecognizer()                    #初始化命名实体实例	
reg.load(nermodel)                                       #加载模型	
netags = reg.recognize(words, postags)         #对分词、词性标注得到的数据进行实体标识	
netags = list(netags)	
print(u"命名实体识别:", netags)	
	
#实体识别结果	
data={"reg": netags,"words":words,"tags":postags}	
print(data)	
reg.release()                                                 #释放模型	
print(" ")	
	
#依存句法分析	
parmodel = 'AgriKG\\ltp\\parser.model'	
parser = Parser()                                          #初始化命名实体实例	
parser.load(parmodel)                                  #加载模型	
arcs = parser.parse(words, postags)              #句法分析	
	
#输出结果	
print(words)	
print("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))	
	
rely_id = [arc.head for arc in arcs]              # 提取依存父节点id	
relation = [arc.relation for arc in arcs]         # 提取依存关系	
heads = ['Root' if id == 0 else words[id-1] for id in rely_id]  # 匹配依存父节点词语	
for i in range(len(words)):	
    print(relation[i] + '(' + words[i] + ', ' + heads[i] + ')')	
	
parser.release()

输出结果如下所示，其中ATT表示定中关系，如“贵州-大学”、“财经-大学”；SBV表示主谓关系，如“大学-举办”；ADV表示状中结果“要-举办”；HED表示核心关系“举办-Root”，即“举办大数据”。

补充：arc.head表示依存弧的父节点词的索引，arc.relation表示依存弧的关系。arc.head中的ROOT节点的索引是0，第一个词开始的索引依次为1、2、3。

四.语义角色标注

该部分代码仅供博友们参考，作者还在深入研究中。

#语义角色标注	
from pyltp import SementicRoleLabeller	
	
srlmodel = 'AgriKG\\ltp\\pisrl.model'	
labeller = SementicRoleLabeller()                #初始化实例	
labeller.load(srlmodel)                                 #加载模型	
	
words = ['元芳', '你', '怎么', '看']	
postags = ['nh', 'r', 'r', 'v']	
arcs = parser.parse(words, postags)             #依存句法分析	
	
#arcs使用依存句法分析的结果	
roles = labeller.label(words, postags, arcs)    #语义角色标注	
	
# 打印结果	
for role in roles:	
    print(role.index, "".join(	
        ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))	
	
labeller.release()                                           #释放模型

输出结果如下：

3 A0:(1,1)ADV:(2,2)

上面的例子，由于结果输出一行，所以“元芳你怎么看”有一组语义角色。其谓词索引为3，即“看”。这个谓词有三个语义角色，范围分别是(0,0)即“元芳”，(1,1)即“你”，(2,2)即“怎么”，类型分别是A0、A0、ADV。

希望这篇基础性文章对你有所帮助，如果有错误或不足之处，还请海涵。

原文链接：

https://blog.csdn.net/Eastmount/article/details/90771843

https://blog.csdn.net/Eastmount/article/details/92440722

最近，大家都在谈论高考志愿报考话题，Python大本营也发起投票，欢迎大家与我们交流~

（*本文经作者授权微信平台首发于AI科技大本营，转载请微信联系1092722531）

◆

精彩推荐

◆

比写代码更重要的是抓住下一个技术风口，6月技术福利，BTA大牛带你一起探索未来的技术方向。机器学习、数据分析、自然语言处理、知识图谱等热门领域的大牛们都在关注什么？企业落地实践经验有哪些？扫码参与活动，限时免费获取。

推荐阅读：

30秒让图片变裸照，使用无门槛，这个软件比Deepfake杀伤力更大
吴恩达Drive.ai因经营困难“卖身”苹果
上海交大张拳石：神经网络的可解释性，从经验主义到数学建模
我发现一个新的软件，用自然语言编程！非常酷！
香港的房价真的那么贵吗？用数据挖掘真相！
我花了 10 年，从工厂妹逆袭为纽约高薪程序员
面试官问你MyBatis中有哪些设计模式，把这篇文章发给他
中本聪的一失之虑让比特币趋于中心化, 那这些问题的严重性, 你了解吗?
想换行做 5G 的开发者到底该咋办？
如何向妹子解释：为啥 5G 来了需要换 SIM卡！

你点的每个“在看”，我都认真当成了喜欢

你可能感兴趣的:(从0到1 | 手把手教你如何使用哈工大NLP工具——PyLTP！)

spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
如何选择最佳国外邮箱？注册、登录与购买指南 html
在如今的数字化时代，邮箱已经成为我们日常生活和工作中不可或缺的工具。无论是个人通信、商务往来，还是注册各种在线服务，一个功能强大、稳定可靠的邮箱都是必不可少的。而在众多国外邮箱服务中，如何选择最适合自己的邮箱？本文将以Zoho邮箱为例，为您详细讲解如何选择、注册、登录以及购买国外邮箱服务。一、为什么选择国外邮箱？在选择邮箱服务时，很多人会考虑国外邮箱。以下是国外邮箱的几大优势：隐私保护更强国外邮箱
信息获取、扫描与服务识别、漏洞验证、嗅探攻击、代理与隧道、metasploit渗透攻击等 Utopia.️ web安全安全网络
1.信息获取信息获取是渗透测试和安全评估的第一步，主要目的是收集目标系统的各种信息。这些信息可以帮助确定攻击面和潜在的安全漏洞。技术和工具：域名信息：使用whois查询域名注册信息。DNS查询：使用nslookup或dig获取DNS记录，包括A记录、MX记录等。网络扫描：使用nmap或Masscan扫描目标网络，收集IP地址和开放端口信息。公开信息：通过搜索引擎、社交媒体、公司网站等公开资源获取目
管理升级的关键：2024年6大国内项目管理平台实测与选择指南（禅道、钉钉、云效、简道云、Tapd、Teambition）
以下是一篇满足您要求的博客稿件：引言在当今快节奏的商业环境中，项目管理的重要性不言而喻。一款优秀的项目管理工具能够助力团队提高效率、优化流程，从而实现项目的成功交付。2024年，国内有众多项目管理平台可供选择，本文将对禅道、TAPD、云效、简道云、钉钉、Teambition这6大国内项目管理平台进行实测与分析，为您提供选择指南，帮助您找到最适合团队的项目管理工具。项目管理工具介绍禅道：开源且专业，
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
FakeApp 技术浅析（一）爱研究的小牛 AIGC—深度伪造虚拟现实人工智能 AIGC 深度学习机器学习
FakeApp是一款早期的深度伪造（Deepfake）工具，最初于2018年发布，用于生成和编辑换脸视频。尽管FakeApp已经不再更新，但它在深度伪造技术的发展中起到了重要作用。1.技术背景与理论基础1.1生成对抗网络（GANs）生成对抗网络（GANs）是深度学习领域中的一种重要模型，由生成器（Generator）和判别器（Discriminator）组成。生成器负责生成逼真的数据（如图像、视频
AI 大模型：Intelligent Agent—— 开启智能新纪元 AI-入门人工智能学习产品经理面试 agi
在LLM语境下，Agent理解为在某种能自主理解、规划决策、执行复杂任务的智能体，LLM充当着智能体的“大脑”。从软件工程的角度，智能体是一种基于大语言模型的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。在基于LLM的智能体中，LLM的充当着智能体的“大脑”的角色，同时还有3个关键部分：规划（Planning）:智能体会把大型任务分解为子任务，并规划执行任务的流
Conda 常用命令全解析 melck conda
在Windows系统中，Conda是一款功能强大的包管理和环境管理工具，尤其对于数据分析、科学计算等场景有着重要的作用。本文将详细介绍Conda在Windows系统中的常用命令，帮助你高效地管理虚拟环境和软件包。一、环境管理命令1.1查看Conda版本conda--version该命令用于确认Conda是否成功安装以及查看其版本号。这对于确保Conda的兼容性和功能性非常重要。1.2创建新环境co
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
RealtimeSTT：实时语音转文本的开源神器，轻松实现高效语音处理 AI云极【开源系列】语音识别开源
在语音技术飞速发展的时代，实时语音转文本（Speech-to-Text，简称STT）技术已逐渐成为语音助手、在线会议记录、字幕生成等应用的核心功能。今天要为大家推荐的是一款开源的实时语音转文本工具——RealtimeSTT，它功能强大且易于集成，为开发者提供了快速构建实时语音处理应用的能力。项目地址：GitHub-RealtimeSTT一、什么是RealtimeSTT？RealtimeSTT是一款
TK群发器：提升TikTok营销效率的智能工具 @ V:ZwaitY09 矩阵 tiktok
随着短视频平台TikTok的快速发展，许多企业和内容创作者都将其作为重要的营销渠道。但随着平台的竞争加剧，如何高效管理多个账号、提升曝光度和互动率，成为了营销者的一大挑战。为了解决这一问题，TK群发器应运而生。它通过智能化的操作方式，帮助用户精准高效地进行多账号管理和内容群发，极大提高了营销效率。TK群发器的主要功能：多账号精准群发：TK群发器支持同时管理多个TikTok账号，用户可以通过该工具实
一款超好用的开源密码管理器？七步编程 Github python 开发 github 开发语言 python
程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-StoreDevWeekly收集整理每周优质开发者内容，包括开源项目、资源工具、技术文章等方面。每周五定期发布，同步更新到知乎：Jackpop。欢迎大家投稿，提交issue，推荐或者自荐开源项目/资源/工具/文章~订阅方式：Star并收藏项目DevWeekly关注知乎：Jackpop开源项目1.
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
探索 TypeScript Redux：构建大规模JavaScript应用的终极指南柳旖岭
探索TypeScriptRedux：构建大规模JavaScript应用的终极指南去发现同类优质开源项目:https://gitcode.com/在当今快速发展的前端开发领域中，组合正确工具集来应对复杂性和扩展性挑战至关重要。今天，我们将深入了解一个令人兴奋的开源项目——TypeScriptRedux，它结合了TypeScript、JSPM、typings、React和Redux的强大功能，为开发者
探索HeidiSQL：一款强大的数据库管理工具夏庭彭Maxine
探索HeidiSQL：一款强大的数据库管理工具HeidiSQLHeidiSQL:是一个免费且强大的SQL编辑器和数据库管理工具，支持MySQL、PostgreSQL、SQLite等多种数据库。适合数据库管理员和开发者使用HeidiSQL管理数据库和查询数据。项目地址:https://gitcode.com/gh_mirrors/he/HeidiSQL项目介绍HeidiSQL是一款开源的图形化数据库
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
uni-app adb安卓wifi无线调试景影随形 uni-app 网络错误
方法一adbconnect连接调试前提条件：电脑已安装adb工具手机和电脑连接的同一个WIFICMD进入到adb工具所在目录，可以使用HBuilder自带adb，如：D:\Tools\HBuilderX\plugins\launcher\tools\adbs，也可以使用AndroidSDK的adb。注意，第一次连接需要执行第一步和第二步，让手机监听5555端口，后续手机会自动监听5555端口，不需
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
Vue.js 基础与实战指南：从入门到跑路王嘉俊705 前端 javascript visual studio code html 前端 vue.js
一、Vue的两种使用方式扩展核心包开发直接通过引入Vue.js，适用于简单页面或局部功能增强。优点：轻量，无需构建工具。缺点：难以管理复杂项目，缺少工程化支持。工程化开发使用VueCLI、Vite等工具创建项目，结合Webpack/Vite构建。支持单文件组件（.vue文件），结构清晰（`,,）。插件生态丰富（如VueRouter、Vuex、Pinia）。二、Vue实例的深入理解核心配置项 new
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
深入解析JVM性能问题定位与优化测试不打烊性能测试 jvm 性能优化
JVM性能问题定位与优化详解：架构、内存、Linux命令与监控工具的全面解析引言Java虚拟机（JVM）是运行Java应用程序的核心组件，它管理内存、执行字节码，并提供垃圾回收机制等功能。然而，随着应用规模的增长，JVM的性能问题时常会成为系统瓶颈。为了有效定位和优化JVM性能问题，我们需要从JVM架构、内存管理、Linux系统命令，以及监控工具入手，对JVM的各类指标进行详尽的分析和优化。本文将
青龙面板京东cookies工具 zhiyi_1 学习人工智能
新增了一些功能，主要是有些老版本的适配，解决原先的bug更新方式，替换文件，config文件可以不替换，则保留配置使用方式：1.运行JD_Get.exe2.登录京东3.点击获取获取到cookie会在右侧显示4.点击发送到青龙面板（如果配置了青龙参数）下载地址：夸克网盘分享
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

从0到1 | 手把手教你如何使用哈工大NLP工具——PyLTP！

30秒让图片变裸照，使用无门槛，这个软件比Deepfake杀伤力更大

你可能感兴趣的:(从0到1 | 手把手教你如何使用哈工大NLP工具——PyLTP！)