weixin_39814088

python搭建一个自然语言处理_基于 Python 的简单自然语言处理实践

本文是对于基于 Python 进行简单自然语言处理任务的介绍，本文的所有代码放置在这里。建议前置阅读Python 语法速览与机器学习开发环境搭建，更多机器学习资料参考机器学习、深度学习与自然语言处理领域推荐的书籍列表以及面向程序猿的数据科学与机器学习知识体系及资料合集。

Twenty News Group 语料集处理

20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档，最早由 Ken Lang 搜集整理。本部分包含了对于数据集的抓取、特征提取、简单分类器训练、主题模型训练等。本部分代码包括主要的处理代码封装库与基于 Notebook 的交互示范。我们首先需要进行数据抓取：def fetch_data(self, subset='train', categories=None):

"""return data

执行数据抓取操作

Arguments:

subset -> string -- 抓取的目标集合 train / test / all

"""

rand = np.random.mtrand.RandomState(8675309)

data = fetch_20newsgroups(subset=subset,

categories=categories,

shuffle=True,

random_state=rand)

self.data[subset] = data

然后在 Notebook 中交互查看数据格式：# 实例化对象

twp = TwentyNewsGroup()

# 抓取数据

twp.fetch_data()

twenty_train = twp.data['train']

print("数据集结构", "->", twenty_train.keys())

print("文档数目", "->", len(twenty_train.data))

print("目标分类", "->",[ twenty_train.target_names[t] for t in twenty_train.target[:10]])

数据集结构 -> dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR', 'description'])

文档数目 -> 11314

目标分类 -> ['sci.space', 'comp.sys.mac.hardware', 'sci.electronics', 'comp.sys.mac.hardware', 'sci.space', 'rec.sport.hockey', 'talk.religion.misc', 'sci.med', 'talk.religion.misc', 'talk.politics.guns']

接下来我们可以对语料集中的特征进行提取：# 进行特征提取

# 构建文档-词矩阵(Document-Term Matrix)

from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()

X_train_counts = count_vect.fit_transform(twenty_train.data)

print("DTM 结构","->",X_train_counts.shape)

# 查看某个词在词表中的下标

print("词对应下标","->", count_vect.vocabulary_.get(u'algorithm'))

DTM 结构 -> (11314, 130107)

词对应下标 -> 27366

为了将文档用于进行分类任务，还需要使用 TF-IDF 等常见方法将其转化为特征向量：# 构建文档的 TF 特征向量

from sklearn.feature_extraction.text import TfidfTransformer

tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)

X_train_tf = tf_transformer.transform(X_train_counts)

print("某文档 TF 特征向量","->",X_train_tf)

# 构建文档的 TF-IDF 特征向量

from sklearn.feature_extraction.text import TfidfTransformer

tf_transformer = TfidfTransformer().fit(X_train_counts)

X_train_tfidf = tf_transformer.transform(X_train_counts)

print("某文档 TF-IDF 特征向量","->",X_train_tfidf)

某文档 TF 特征向量 -> (0, 6447) 0.0380693493813

(0, 37842) 0.0380693493813

我们可以将特征提取、分类器训练与预测封装为单独函数：def extract_feature(self):

"""

从语料集中抽取文档特征

"""

# 获取训练数据的文档-词矩阵

self.train_dtm = self.count_vect.fit_transform(self.data['train'].data)

# 获取文档的 TF 特征

tf_transformer = TfidfTransformer(use_idf=False)

self.train_tf = tf_transformer.transform(self.train_dtm)

# 获取文档的 TF-IDF 特征

tfidf_transformer = TfidfTransformer().fit(self.train_dtm)

self.train_tfidf = tf_transformer.transform(self.train_dtm)

def train_classifier(self):

"""

从训练集中训练出分类器

"""

self.extract_feature();

self.clf = MultinomialNB().fit(

self.train_tfidf, self.data['train'].target)

def predict(self, docs):

"""

从训练集中训练出分类器

"""

X_new_counts = self.count_vect.transform(docs)

tfidf_transformer = TfidfTransformer().fit(X_new_counts)

X_new_tfidf = tfidf_transformer.transform(X_new_counts)

return self.clf.predict(X_new_tfidf)

然后执行训练并且进行预测与评价：# 训练分类器

twp.train_classifier()

# 执行预测

docs_new = ['God is love', 'OpenGL on the GPU is fast']

predicted = twp.predict(docs_new)

for doc, category in zip(docs_new, predicted):

print('%r => %s' % (doc, twenty_train.target_names[category]))

# 执行模型评测

twp.fetch_data(subset='test')

predicted = twp.predict(twp.data['test'].data)

import numpy as np

# 误差计算

# 简单误差均值

np.mean(predicted == twp.data['test'].target)

# Metrics

from sklearn import metrics

print(metrics.classification_report(

twp.data['test'].target, predicted,

target_names=twp.data['test'].target_names))

# Confusion Matrix

metrics.confusion_matrix(twp.data['test'].target, predicted)

'God is love' => soc.religion.christian

'OpenGL on the GPU is fast' => rec.autos

precision recall f1-score support

alt.atheism 0.79 0.50 0.61 319

...

talk.religion.misc 1.00 0.08 0.15 251

avg / total 0.82 0.79 0.77 7532

Out[16]:

array([[158, 0, 1, 1, 0, 1, 0, 3, 7, 1, 2, 6, 1,

8, 3, 114, 6, 7, 0, 0],

...

[ 35, 3, 1, 0, 0, 0, 1, 4, 1, 1, 6, 3, 0,

6, 5, 127, 30, 5, 2, 21]])

我们也可以对文档集进行主题提取：# 进行主题提取

twp.topics_by_lda()

Topic 0 : stream s1 astronaut zoo laurentian maynard s2 gtoal pem fpu

Topic 1 : 145 cx 0d bh sl 75u 6um m6 sy gld

Topic 2 : apartment wpi mars nazis monash palestine ottoman sas winner gerard

Topic 3 : livesey contest satellite tamu mathew orbital wpd marriage solntze pope

Topic 4 : x11 contest lib font string contrib visual xterm ahl brake

Topic 5 : ax g9v b8f a86 1d9 pl 0t wm 34u giz

Topic 6 : printf null char manes behanna senate handgun civilians homicides magpie

Topic 7 : buf jpeg chi tor bos det que uwo pit blah

Topic 8 : oracle di t4 risc nist instruction msg postscript dma convex

Topic 9 : candida cray yeast viking dog venus bloom symptoms observatory roby

Topic 10 : cx ck hz lk mv cramer adl optilink k8 uw

Topic 11 : ripem rsa sandvik w0 bosnia psuvm hudson utk defensive veal

Topic 12 : db espn sabbath br widgets liar davidian urartu sdpa cooling

Topic 13 : ripem dyer ucsu carleton adaptec tires chem alchemy lockheed rsa

Topic 14 : ingr sv alomar jupiter borland het intergraph factory paradox captain

Topic 15 : militia palestinian cpr pts handheld sharks igc apc jake lehigh

Topic 16 : alaska duke col russia uoknor aurora princeton nsmca gene stereo

Topic 17 : uuencode msg helmet eos satan dseg homosexual ics gear pyron

Topic 18 : entries myers x11r4 radar remark cipher maine hamburg senior bontchev

Topic 19 : cubs ufl vitamin temple gsfc mccall astro bellcore uranium wesleyan

常见自然语言处理工具封装

经过上面对于 20NewsGroup 语料集处理的介绍我们可以发现常见自然语言处理任务包括，数据获取、数据预处理、数据特征提取、分类模型训练、主题模型或者词向量等高级特征提取等等。笔者还习惯用python-fire将类快速封装为可通过命令行调用的工具，同时也支持外部模块调用使用。本部分我们主要以中文语料集为例，譬如我们需要对中文维基百科数据进行分析，可以使用 gensim 中的维基百科处理类：class Wiki(object):

"""

维基百科语料集处理

"""

def wiki2texts(self, wiki_data_path, wiki_texts_path='./wiki_texts.txt'):

"""

将维基百科数据转化为文本数据

Arguments:

wiki_data_path -- 维基压缩文件地址

"""

if not wiki_data_path:

print("请输入 Wiki 压缩文件路径或者前往 https://dumps.wikimedia.org/zhwiki/ 下载")

exit()

# 构建维基语料集

wiki_corpus = WikiCorpus(wiki_data_path, dictionary={})

texts_num = 0

with open(wiki_text_path, 'w', encoding='utf-8') as output:

for text in wiki_corpus.get_texts():

output.write(b' '.join(text).decode('utf-8') + '\n')

texts_num += 1

if texts_num % 10000 == 0:

logging.info("已处理 %d 篇文章" % texts_num)

print("处理完毕，请使用 OpenCC 转化为简体字")

抓取完毕后，我们还需要用 OpenCC 转化为简体字。抓取完毕后我们可以使用结巴分词对生成的文本文件进行分词，代码参考这里，我们直接使用 python chinese_text_processor.py tokenize_file /output.txt 直接执行该任务并且生成输出文件。获取分词之后的文件，我们可以将其转化为简单的词袋表示或者文档-词向量，详细代码参考这里：class CorpusProcessor:

"""

语料集处理

"""

def corpus2bow(self, tokenized_corpus=default_documents):

"""returns (vocab,corpus_in_bow)

将语料集转化为 BOW 形式

Arguments:

tokenized_corpus -- 经过分词的文档列表

Return:

vocab -- {'human': 0, ... 'minors': 11}

corpus_in_bow -- [[(0, 1), (1, 1), (2, 1)]...]

"""

dictionary = corpora.Dictionary(tokenized_corpus)

# 获取词表

vocab = dictionary.token2id

# 获取文档的词袋表示

corpus_in_bow = [dictionary.doc2bow(text) for text in tokenized_corpus]

return (vocab, corpus_in_bow)

def corpus2dtm(self, tokenized_corpus=default_documents, min_df=10, max_df=100):

"""returns (vocab, DTM)

将语料集转化为文档-词矩阵

- dtm -> matrix: 文档-词矩阵

I like hate databases

D1 1 1 0 1

D2 1 0 1 1

"""

if type(tokenized_corpus[0]) is list:

documents = [" ".join(document) for document in tokenized_corpus]

else:

documents = tokenized_corpus

if max_df == -1:

max_df = round(len(documents) / 2)

# 构建语料集统计向量

vec = CountVectorizer(min_df=min_df,

max_df=max_df,

analyzer="word",

token_pattern="[\S]+",

tokenizer=None,

preprocessor=None,

stop_words=None

)

# 对于数据进行分析

DTM = vec.fit_transform(documents)

# 获取词表

vocab = vec.get_feature_names()

return (vocab, DTM)

我们也可以对分词之后的文档进行主题模型或者词向量提取，这里使用分词之后的文件就可以忽略中英文的差异：def topics_by_lda(self, tokenized_corpus_path, num_topics=20, num_words=10, max_lines=10000, split="\s+", max_df=100):

"""

读入经过分词的文件并且对其进行 LDA 训练

Arguments:

tokenized_corpus_path -> string -- 经过分词的语料集地址

num_topics -> integer -- 主题数目

num_words -> integer -- 主题词数目

max_lines -> integer -- 每次读入的最大行数

split -> string -- 文档的词之间的分隔符

max_df -> integer -- 避免常用词，过滤超过该阈值的词

"""

# 存放所有语料集信息

corpus = []

with open(tokenized_corpus_path, 'r', encoding='utf-8') as tokenized_corpus:

flag = 0

for document in tokenized_corpus:

# 判断是否读取了足够的行数

if(flag > max_lines):

break

# 将读取到的内容添加到语料集中

corpus.append(re.split(split, document))

flag = flag + 1

# 构建语料集的 BOW 表示

(vocab, DTM) = self.corpus2dtm(corpus, max_df=max_df)

# 训练 LDA 模型

lda = LdaMulticore(

matutils.Sparse2Corpus(DTM, documents_columns=False),

num_topics=num_topics,

id2word=dict([(i, s) for i, s in enumerate(vocab)]),

workers=4

)

# 打印并且返回主题数据

topics = lda.show_topics(

num_topics=num_topics,

num_words=num_words,

formatted=False,

log=False)

for ti, topic in enumerate(topics):

print("Topic", ti, ":", " ".join(word[0] for word in topic[1]))

该函数同样可以使用命令行直接调用，传入分词之后的文件。我们也可以对其语料集建立词向量，代码参考这里；如果对于词向量基本使用尚不熟悉的同学可以参考基于 Gensim 的 Word2Vec 实践：def wv_train(self, tokenized_text_path, output_model_path='./wv_model.bin'):

"""

对于文本进行词向量训练，并将输出的词向量保存

"""

sentences = word2vec.Text8Corpus(tokenized_text_path)

# 进行模型训练

model = word2vec.Word2Vec(sentences, size=250)

# 保存模型

model.save(output_model_path)

def wv_visualize(self, model_path, word=["中国", "航空"]):

"""

根据输入的词搜索邻近词然后可视化展示

参数：

model_path: Word2Vec 模型地址

"""

# 加载模型

model = word2vec.Word2Vec.load(model_path)

# 寻找出最相似的多个词

words = [wp[0] for wp in model.most_similar(word, topn=20)]

# 提取出词对应的词向量

wordsInVector = [model[word] for word in words]

# 进行 PCA 降维

pca = PCA(n_components=2)

pca.fit(wordsInVector)

X = pca.transform(wordsInVector)

# 绘制图形

xs = X[:, 0]

ys = X[:, 1]

plt.figure(figsize=(12, 8))

plt.scatter(xs, ys, marker='o')

# 遍历所有的词添加点注释

for i, w in enumerate(words):

plt.annotate(

xy=(xs[i], ys[i]), xytext=(6, 6),

textcoords='offset points', ha='left', va='top',

**dict(fontsize=10)

)

plt.show()

Unity3D使用鼠标旋转缩放平移视角肚皮朝上的刺猬 unity3D Unity3D视角变换实现
Unity使用鼠标旋转缩放平移视角用代码在Game界面完美实现Scene界面的操作方法。使用方法：把脚本挂在相机上，把跟踪的target拖到脚本上。视角跟踪的是一个空物体，当然如果你是做RPG游戏需要跟踪某一角色的视角，那就不需要中键平移功能，把空物体换成角色就行。代码主要是分三部分功能进行实现。右键拖动控制视角的旋转；滚轮旋转控制视角的缩放；中键拖动控制视角的平移。右键拖动控制旋转主要是用Get
游戏引擎学习第112天虾球xz 游戏引擎学习 java
黑板：优化今天的内容是关于优化的，主要讨论了如何在开发中提高代码的效率，尤其是当游戏的帧率出现问题时。优化并不总是要将代码做到最快，而是要确保代码足够高效，以避免性能问题。优化的过程是一个反复迭代的过程，目标是找到一个“足够好”的解决方案，而不是追求极致优化。优化的第一步并不是直接优化代码，而是要进行测量和分析。这一步很重要，因为只有了解代码的表现和瓶颈，才能有效地进行优化。测量代码的性能，确定哪
【Tools/macOS系列】macOS终端配置：zsh+iTerm2+OhMyZsh 飞翔的鲲【实用工具专栏】macOS zsh iTerm2 终端 ohmyzsh
DATE:2021.7.17文章目录1、前言2、参考3、终端和vim配置效果图4、终端配置步骤4.1、安装iTerm24.2、安装oh-my-zsh4.3、主题和颜色4.4、插件4.5、特殊字体Hackherdfont4.6、vim配置4.7、随时唤起4.8、自定义界面壁纸1、前言macOS的终端Terminal界面非常简单，没有Linux下面的颜色设置和自动补齐等功能，用起来非常不方便。本文讲解
Kate文本编辑器 v24.12.9013 开源高级文本代码编辑器 SSASASA11 编辑器
链接：https://pan.quark.cn/s/5577e74ab648Kate是一个可以跨平台使用的免费高级文本编辑器，支持标签页、代码高亮、显示行号、显示缩略图的滚动条、多文件查找、横向或者纵向显示多个视图等众多高级特性。软件功能1、双击当前标签页创建新标签页。2、支持启用/禁用自动换行。3、强大的多文件查找和替换功能。利用这个功能可以一键查找/替换所有已打开的文本中的内容。支持正则表达式
Linux-ISCSI DC_BLOG Linux linux 服务器
文章目录iSCSIiSCSI配置作者主页：点击！Linux专栏：点击！⏰️创作时间：2025年02月17日19点50分iSCSI协议是没有同步机制的，要想解决同步机制，需要配置集群文件系统或者是分布式文件系统，防止数据不同步的问题iSCSI基于IP协议的技术标准，该技术允许用户通过TCP/IP网络来构建SANiSCCI的基本组成使用3260端口进行传输iSCCI会话的建立是通过启动器（Initat
Linux-GlusterFS操作子卷 DC_BLOG Linux linux wpf 运维服务器分布式
文章目录分布式卷添加卷分布式卷删除子卷删除总卷作者主页：点击！Linux专栏：点击！⏰️创作时间：2025年02月20日19点30分分布式卷添加卷Node1上进行操作扩容#服务器端glustervolumeadd-brickgv-disNode3:/exp/vdb1/brick#在分布式卷中添加卷glustervolumeinfogv-dis#之后查看分布式卷的详细信息之后就会发现新增了Node3
鸿道Intewell操作系统为半导体行业打造高可靠实时控制系统一RTOS一鸿道Intewell操作系统实时操作系统半导体行业高可靠控制系统高实时控制系统
半导体行业是现代科技的核心领域，其生产过程高度依赖自动化和精确的实时控制。从芯片制造到封装测试，每一个环节都需要高精度的设备协同工作，以确保产品的质量和性能。随着半导体技术的不断进步，对实时控制系统的性能、可靠性和灵活性提出了更高的要求。传统的控制系统在集成度、扩展性和功能安全方面逐渐暴露出局限性，而国产实时操作系统的发展为半导体行业提供了新的机遇。随着半导体技术的不断演进，芯片制程日益缩小，对生
Vue3 vuex ＊且听风吟 #Vue 3 javascript vue.js 前端
概念Vuex：状态管理工具使用场景有时候，需要在多个组件中共享状态，并且是响应式的状态，一个变，全都跟着发生改变的场景。例如，一些全局要用的的状态信息：用户登录状态、用户信息等等；这时候，就需要这样的一个工具来进行全局的状态管理，而Vuex就是这样的一个工具。Vue2.xvuex基本结构store/index.js：importVuefrom'vue'importVuexfrom'vuex'Vue
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
SMT贴片加工_锡膏的作用 CIT_PCBA PCBA pcb工艺贴片 smt 制造
随着现代电子制造业的飞速发展，表面贴装技术（SurfaceMountTechnology，简称SMT）已成为电子组装领域的核心技术。在SMT生产过程中，对于锡膏的使用是非常多的，它直接影响到电路板的质量与性能。本文旨在深入探讨锡膏在SMT中的作用及其对电子制造业的重要性。锡膏及其在SMT中的作用锡膏是一种由微细金属粒子（通常为锡和铅或无铅合金）、助焊剂和少量其他化学品组成的浆料。在SMT生产线上，
SMT贴片加工中回流焊接机的关键工艺 CIT_PCBA pcb工艺制造
SMT贴片指的是在PCB基础上进行加工的系列工艺流程的简称。PCB(PrintedCircuitBoard)意为印刷电路板。(原文:SMT贴片指的是在PCB基础上进行加工的系列工艺流程的简称PCB(PrintedCircuitBoard))SMT是表面组装技术(表面贴装技术)(SurfaceMountedTechnology的缩写)，是目前电子组装行业里最流行的一种技术和工艺。电子电路表面组装技术
形参和实参 2501_90124553 java 算法数据结构
形参（形式参数）函数定义时指定的参数，形参是用来接收数据的，函数定义时，系统不会为形参申请内存，只有当函数调用时，系统才会为形参申请内存。主要用于存储实际参数，并且当函数返回时，系统会自动回收为形参申请的内存资源。（本质上所有函数都有一个return，只不过当我们的函数返回类型是void类型的时候，return是隐式）//关于默认returnvoidfun1(){//此时return;是不建议写出
扫雷游戏升级版含递归链式展开(一次展开一片区域) 代码详细解读 C语言 C r a z y c语言游戏游戏 c语言算法 java 游戏程序 python c++
1、前言：我看了CSDN有很多小伙伴也写了扫雷小游戏但是大部分写的代码都是一次输入坐标只能展开一个位置并没有还原我们小时候最初始的游戏玩法可玩性很低我在这用函数递归链式展开一片还原最初始游戏提高可玩性先放效果图↓2、建议：一个程序代码的实现并不是只靠看能看会的而是要落实到敲代码可以先靠自己画导图根据导图敲出代码敲代码的过程中难免会有些错误解决它这都将成为你宝贵的知识*在看的过程也可以拿出稿纸和笔来
教你本地复现Deep Research：DeepSeek R1+ LangChain+Milvus 大模型入门教程 langchain 人工智能大模型学习大模型 DeepSeek AI大模型大模型教程
金融机构、律所、科研党的福音来了！不久前，OpenAI新推出了一项名叫DeepResearch（深度研究）的功能，迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里，用户输入查询问题后，只需要选择DeepResearch选项，OpenAIo3就能自动查找分析数百优质在线资源，并对其进行综合整理并加工，为用户生成一份具备专业分析师水准的综合报告。不仅内容生成更加详实，而
网络技术变迁：从IPv4走向IPv6 是垚不是土网络技术变迁服务器网络网络协议安全 ip
目录前言旧时代产物：IPv4什么是IPv4？IPv4的工作方式IPv4的缺点为什么要从IPv4过渡到IPv6？走向IPv6：新一代互联网协议IPv6的技术特性我们需要过渡技术双栈（DualStack）隧道技术（Tunneling）NAT64/DNS64总结：IPv4与IPv6的时代更替与科技发展从技术演进角度看从时代发展角度看从科技发展角度看从全球互联网治理角度看从时代更替角度看结语前言IP协议是
Spring Bean 生命周期的执行流程涛粒子 spring 数据库 java
1.Bean定义阶段在Spring应用启动时，会读取配置文件（如XML配置、Java注解配置等）或者扫描带有特定注解（如@Component、@Service、@Repository等）的类，将这些Bean的定义信息加载到Spring的BeanFactory或ApplicationContext中。这些定义信息包括Bean的类名、作用域、依赖关系等。2.Bean实例化阶段调用构造函数：Spring
浅谈vue常用的状态管理库vuex、pinia 超绝前端乱学小白 vue flutter vue.js vue javascript
Vuex和Pinia都是Vue.js应用程序中的状态管理库,虽然两种状态管理库的vue2，vue3都兼容，但是更推荐vue2（vuex），vue3（pinia）VuexVuex是Vue.js官方提供的状态管理库，它借鉴了Flux和Redux的设计思想，将应用的状态（state）集中管理于单个全局状态树中。核心概念State：存储应用程序的状态Getters：允许在Vuexstore中定义计算属性，
Spring Bean 生命周期 CT随 spring java 后端
SpringBean生命周期是Spring框架中一个非常重要的概念，它描述了一个Bean从创建到销毁的完整过程。这个生命周期可以分为五个主要阶段：创建前准备阶段、创建实例阶段、依赖注入阶段、容器缓存阶段和销毁实例阶段。下面我们将详细介绍每个阶段的作用，并通过生活中的例子来帮助理解。创建前准备阶段定义与作用：在这一阶段，Spring容器会解析配置文件或注解，查找并加载需要被管理的Bean的相关信息。
深入了解常见MCU架构：ARM、AVR与其他嵌入式系统 Crazy learner 模型部署架构 mcu
目录**一、什么是MCU（微控制器单元）？****二、ARM架构微控制器****1.ARM架构简介****2.ARM架构特点****3.ARM架构应用领域****4.ARM架构的代表性MCU****三、AVR架构微控制器****1.AVR架构简介****2.AVR架构特点****3.AVR架构应用领域****4.AVR架构的代表性MCU****四、ARM与AVR架构对比****选择建议：****结
“深入浅出”系列之QT：（10）Qt接入Deepseek 我真不会起名字啊 qt 开发语言
项目配置：在.pro文件中添加网络模块：QT+=corenetworkAPI配置：将apiUrl替换为实际的DeepSeekAPI端点将apiKey替换为你的有效API密钥根据API文档调整请求参数（模型名称、温度值等）功能说明：使用QNetworkAccessManager处理HTTP请求自动处理JSON序列化/反序列化支持异步请求处理包含基本的错误处理扩展建议：添加更完善的错误处理（HTTP状
pycharm画图程序如何一步一步的调试 leaf_leaves_leaf pycharm ide python
1.设置合适的Matplotlib后端在PyCharm中，有时需要手动指定Matplotlib后端。你可以尝试在脚本的最开始加入以下代码，强制使用TkAgg后端，这样可以保证图形更新的实时性：importmatplotlibmatplotlib.use('TkAgg')#指定TkAgg后端importmatplotlib.pyplotaspltimportnumpyasnp#启用交互模式plt.i
Hadoop之HDFS的使用想要变瘦的小码头 hadoop hdfs 大数据
HDFS是什么：HDFS是一个分布式的文件系统，是个网盘，HDFS是一种适合大文件存储的分布式文件系统HDFS的Shell操作1、查看hdfs根目录下的内容-lshdfsdfs-lshdfs://hadoop01:9000/url在使用时默认是可以省略的，因为hdfs在执行的时候会根据HDOOP_HOME自动识别配置文件中的fs.defaultFS属性可以写成：hdfsdfs-ls/还有一版旧版写
SMT贴片治具关键设计要素与制造工艺探析安德胜SMT贴片其他
内容概要随着电子产品向微型化、高集成化方向加速发展，SMT贴片治具作为高密度PCB组装的核心工艺装备，其设计与制造质量直接影响贴装精度与生产效率。本段将聚焦治具设计规范的核心要素，从材料性能、结构适配性、公差匹配等维度展开系统性阐述。在材料选型层面，需综合考虑治具的耐高温性、抗变形能力及绝缘特性。例如，铝合金凭借轻量化与导热优势，常用于高精度定位模组；而工程塑料则在防静电与成本控制场景中更具适用性
22.4.3.1 IPGlobalProperties类 .Net学习 C#教程 c#网络
版权声明：本文为博主原创文章，转载请在显著位置标明本文出处以及作者网名，未经作者允许不得用于商业目的。IPGlobalProperties类提供有关本地计算机的网络接口和网络连接的配置和统计信息。此类提供的信息与IPHelperAPI函数提供的信息相似。IPGlobalProperties常用属性：DhcpScopeName：动态主机配置协议(DHCP)范围名。DomainName：在其中注册本地
C语言中的回调函数以及应用 C r a z y c语言 c++java python 数据结构
定义回调函数就是一个通过函数指针调用的函数。如果你把函数的指针也就是地址作为参数传递给另一个函数，当这个指针被用来调用其所指向的函数时，我们就可以说这是回调函数。注意回调函数不是有该函数的实现方直接调用，而是再特定的事件或条件发生时由另外的一方调用的，用于对该事件或条件进行响应看不懂没关系先继续看↓实例应用:我们先用常规思路写一个能简单实现加减乘除的计算器#includevoidmenu(){pr
Spring Bean 生命周期的执行流程涛粒子 spring java 后端
1.Bean定义阶段解析配置元数据：Spring容器会读取配置信息，这些配置信息可以是XML文件、Java注解或者Java配置类。容器根据这些配置信息解析出Bean的定义，包括Bean的类名、作用域、依赖关系等。注册Bean定义：解析完成后，Spring会将Bean定义信息注册到BeanDefinitionRegistry中，BeanDefinitionRegistry是一个存储Bean定义的注册
PHP 网络编程介绍来恩1003 PHP 从入门到精通 php 网络开发语言
PHP学习资料PHP学习资料PHP学习资料在当今数字化时代，网络编程是开发各类应用必不可少的技能。PHP作为一门广泛应用于Web开发的编程语言，同样具备强大的网络编程能力。接下来，我们将深入探讨PHP中网络连接的建立、Socket编程、HTTP请求与响应等网络相关的操作。一、网络连接的建立在PHP中建立网络连接，主要是通过使用内置的函数来实现与远程服务器的通信。最常见的是使用fsockopen函数
PHP 安全与加密：守护 Web 应用的基石来恩1003 PHP 从入门到精通 php 安全前端
PHP学习资料PHP学习资料PHP学习资料在当今数字化时代，Web应用无处不在，而PHP作为一种广泛使用的服务器端脚本语言，承载着无数网站和应用的核心逻辑。然而，随着网络攻击手段日益复杂，PHP应用面临着诸多安全威胁，如SQL注入、XSS攻击等，同时，数据的加密保护也至关重要。本文将深入探讨PHP中的安全问题及加密算法的应用，帮助开发者构建更安全可靠的Web应用。一、PHP安全之殇——SQL注入攻
C++ 一篇读懂“值传递”和“地址传递” xzal12 C++c++
让我们通过一个简单的、形象的比喻来帮助你理解“值传递”和“地址传递”是如何影响实参的。1.值传递想象你有一个**信封**（代表变量），里面放着一张纸条（代表数据）。你决定把这个信封寄给一个朋友，让他们看一下纸条的内容。-**过程**：你把信封寄给朋友，但你实际上给朋友的是一个**副本**，也就是你将信封和纸条的内容完全复制了一份。-**结果**：你的朋友可以看到纸条上的内容，但他们修改纸条内容时，
TT无人机零散笔记 xzal12 TT无人机无人机笔记
TT扩展板上传模式：sdk：软件开发工具包。一键安装驱动：扩展模块使用Mind+编程是通过USB串口，因此在首次使用Mind+连接扩展模块时需要一键安装驱动。恢复设备初始设置：由于扩展模块可编程，如果扩展模块中存在程序则会导致实时模式的控制无法生效，因此在使用实时模式前需要将扩展模块恢复默认固件。serial.begin(9600)#初始化串口通信，设置数据传输速率(波特率)为9600。波特率：表
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

python搭建一个自然语言处理_基于 Python 的简单自然语言处理实践

你可能感兴趣的:(python搭建一个自然语言处理_基于 Python 的简单自然语言处理实践)