数据派THU

独家 | 快速掌握spacy在python中进行自然语言处理（附代码&链接）

作者：Paco Nathan

翻译：笪洁琼

校对：和中华

本文约 6600字 ，建议阅读 15分钟 。

本文简要介绍了如何使用spaCy和Python中的相关库进行自然语言处理(有时称为“文本分析”)。以及一些目前最新的相关应用。

介绍

本文与配套的Domino项目，简要介绍了如何使用spaCy和相关库在Python中处理自然语言 (有时称为“文本分析”) 。业界的数据科学团队时常处理大量文本数据，这也是机器学习中使用的四大数据类别之一，通常是人为生成的文本，但也不全是这样。

想想看:商业世界的“操作系统”是如何运行的? 通常，有合同 (销售合同、工作协议、合作关系) ，发票，保险单，规章制度和其他法律条文等等。所有这些都被表示为文本。

你可能会遇到一些缩写词:自然语言处理(NLP)，自然语言理解 (NLU) ，自然语言生成 (NLG) ，简单地说，分别是“阅读文本”、“理解意义”、“输出文本”。这些任务越来越多地重叠，而且很难分类。

spaCy框架——以及越来越多的插件和其他集成（包） ——为各种各样的自然语言任务提供了支持。它已经成为Python中最广泛使用的工业级自然语言库之一，并且拥有相当大的社区，因此，随着该领域的快速发展，它为科研进展进展的商业化提供了足够地支持。

开始

我们已经在Domino中配置了默认的软件环境，以包含本教程所需的所有包、库、模型和数据。请查看Domino项目以运行代码。

如果您对Domino的计算环境如何工作感兴趣，请查看说明页面。

说明页面

https://support.dominodatalab.com/hc/en-us/articles/115000392643-Environment-management

现在让我们加载spaCy并运行一些代码:

import spacy	
nlp = spacy.load("en_core_web_sm")

该nlp变量现在是您通向所有spaCy的入口，并装载了en_core_web_sm英文模型。接下来，让我们通过自然语言解析器来运行一个小“文档”:

text = "The rain in Spain falls mainly on the plain."	
doc = nlp(text)	

	
for token in doc:	
    print(token.text, token.lemma_, token.pos_, token.is_stop)

The the DET True	
rain rain NOUN False	
in in ADP True	
Spain Spain PROPN False	
falls fall VERB False	
mainly mainly ADV False	
on on ADP True	
the the DET True	
plain plain NOUN False	
. . PUNCT False

首先，我们从文本创建一个doc (注：spaCy中的一种数据结构) 文档，它是一个容器，存放了文档以及文档对应的标注。然后我们遍历文档，看看spaCy解析了什么。

由于信息有点多，读起来有点困难。让我们将这个句子的用spaCy解析结果重新格式化为pandas库的 dataframe:

import pandas as pd	

	
cols = ("text", "lemma", "POS", "explain", "stopword")	
rows = []	

	
for t in doc:	
    row = [t.text, t.lemma_, t.pos_, spacy.explain(t.pos_), t.is_stop]	
    rows.append(row)	

	
df = pd.DataFrame(rows, columns=cols)	

	
df

在这个简单的例子中，整个文档仅仅是一个简短的句子。对于这个句子中的每个单词，spaCy都创建了一个token，我们访问每个token中的字段来显示:

原始文本
词形（lemma）引理——这个词的词根形式
词性(part-of-speech)
是否是停用词的标志，比如一个可能会被过滤的常用词

接下来让我们使用displaCy库来可视化这个句子的解析树:

from spacy import displacy	

	
displacy.render(doc, )

这会让你回想起小学时候的语文课吗？坦率地说，对于我们这些来自计算语言学背景的人来说，这个图表会让我们感到开心。

我们先回顾一下，你是如何处理多个句子的?

比如，句边界检测(SBD)的功能，也称为句子分割,下例基于内置/默认的语句分析器：

text = "We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit. I fell in. Everyone screamed and Tommy jumped in after me, forgetting that he had blueberries in his front pocket. The gorillas just went wild."	

	
doc = nlp(text)	

	
for sent in doc.sents:	
    print(">", sent)

We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit.	
I fell in.	
Everyone screamed and Tommy jumped in after me, forgetting that he had blueberries in his front pocket.	
The gorillas just went wild.

当spaCy创建一个文档时，它使用了非破坏性标记原则，这意味着tokens、句子等只是长数组中的索引。换句话说，他们没有将文本切分成小段。因此，每个句子都是一个span (也是spaCy中的一种数据结构) 单独，包含了它在文档数组中的开始和结束索引:

for sent in doc.sents:	
    print(">", sent.start, sent.end)

> 0 25

> 25 29

> 29 48

> 48 54

我们可以在文档数组上切片，取出一个句子的tokens:

doc[48:54]	
The gorillas just went wild.

或者只是找一个特定的token，例如最后一句话中的动词“went”:

token = doc[51]	
print(token.text, token.lemma_, token.pos_)	
went go VERB

此时，我们可以解析一个文档，将该文档分割成句子，然后查看每个句子中token的注释。这是一个好的开始。

获取文本

既然我们可以解析文本，那么我们从哪里获得文本呢?一个便利的方法是利用互联网。当然，当我们下载网页时，我们会得到HTML文件，然后需要从文件中提取文本。这方面，Beautiful Soup是一个很流行的包。

首先将警告过滤掉:

import sysimport warnings	
warnings.filter	
warnings("ignore")

在下面的函数get_text()中，我们将解析HTML以找到所有的

标记，然后提取这些标记的文本:

from bs4 import BeautifulSoup	
import requests	
import traceback	

	
def get_text (url): 	
    buf = []	

	
    try:	
        soup = BeautifulSoup(requests.get(url).text, "html.parser")	

	
        for p in soup.find_all("p"): 	
            buf.append(p.get_text())	

	
        return "\n".join(buf)	
    except: 	
        print(traceback.format_exc())	
        sys.exit(-1)

现在让我们从网上获取一些文本。我们可以对比开源倡议上开源许可的情况。

开源倡议：
https://opensource.org/licenses/

lic = {}	
lic["mit"] = nlp(get_text("https://opensource.org/licenses/MIT"))	
lic["asl"] = nlp(get_text("https://opensource.org/licenses/Apache-2.0"))	
lic["bsd"] = nlp(get_text("https://opensource.org/licenses/BSD-3-Clause"))	
for sent in lic["bsd"].sents:    print(">", sent)

> SPDX short identifier: BSD-3-Clause	
> Note: This license has also been called the "New BSD License" or  "Modified BSD License"	
> See also the 2-clause BSD License.	
…

自然语言工作的一个常见用例是对比文本。

例如，有了这些开源许可，我们可以下载它们的文本，进行解析，然后比较它们之间的相似度: （https://spacy.io/api/doc#similarity）

pairs = [	
    ["mit", "asl"], 	
    ["asl", "bsd"], 	
    ["bsd", "mit"]	
]	

	
for a, b in pairs:	
print(a, b, lic[a].similarity(lic[b]))

mit asl 0.9482039305669306	
asl bsd 0.9391555350757145	
bsd mit 0.9895838089575453

这很有趣，因为BSD （https://opensource.org/licenses/BSD-3-Clause）和MIT （https://opensource.org/licenses/MIT）许可似乎是最相似的文档。

事实上，它们是密切相关的。

无可否认，由于OSI的免责声明，每个文档中都包含了一些额外的文本——但是这为比较许可证提供了一个合理的近似值。

自然语言理解

现在让我们深入了解一下spaCy中的NLU特性。假设我们要解析有一个文档，从纯语法的角度来看，我们可以提取名词块（https://spacy.io/usage/linguistic-features#noun-chunks），即每个名词短语:

text = "Steve Jobs and Steve Wozniak incorporated Apple Computer on January 3, 1977, in Cupertino, California."	
doc = nlp(text)	

	
for chunk in doc.noun_chunks: 	
    print(chunk.text)

Steve Jobs	
Steve Wozniak	
Apple Computer	
January	
Cupertino	
California

句子中的名词短语通常提供更多的信息内容——作为一个简单的过滤器，可以将长文档简化为更“精练”的表达。

我们可以进一步采用这种方法，并在文本中标识命名实体（https://spacy.io/usage/linguistic-features#named-entities），即专有名词:

for ent in doc.ents:   	
print(ent.text, ent.label_)

displacy.render(doc, )

如果你正在使用知识图谱 (https://www.akbc.ws/2019/) 的应用程序和其他关联数据 (http://linkeddata.org/) ,那么构建文档中的命名实体和其他相关信息的联系就是一种挑战,即文本链接

(http://nlpprogress.com/english/entity_linking.html) 。

识别文档中的命名实体是这类型AI工作的第一步。例如，根据上面的文本，可以将“Steve Wozniak”这个命名实体链接到DBpedia中的查找链接 (http://dbpedia.org/page/Steve_Wozniak) 。

一般来说，人们还可以将词形与描述其含义的资源联系起来。例如，在前面的章节中，我们分析了“the gorillas just went wild”这个句子，并展示“went”这个词的词形是动词go。

此时，我们可以使用一个历史悠久的项目WordNet (https://wordnet.princeton.edu/) ，它为英语提供了一个词汇数据库——换句话说，它是一个可计算的近义词典。

有一个针对WordNet的spaCy集成，名为spaCy - WordNet (https://github.com/recognai/spacy-wordnet) ，作者是Daniel Vila Suero (https://twitter.com/dvilasuero) ，他是自然语言和知识图谱研究的专家。

然后我们将通过NLTK加载WordNet数据:

import nltk	
nltk.download("wordnet")	
[nltk_data] Downloading package wordnet to /home/ceteri/nltk_data...	
[nltk_data] Package wordnet is already up-to-date!True

请注意，spaCy像“管道 (pipeline) ”一样运行，并允许使用自定义的管道组件。这对于在数据科学中支持工作流是非常好的。在这里，我们将添加来自spacy-wordnet项目的Wordnet注释（器） :

from spacy_wordnet.wordnet_annotator import WordnetAnnotator	
print("before", nlp.pipe_names)	
if "WordnetAnnotator" not in nlp.pipe_names:    nlp.add_pipe(WordnetAnnotator(nlp.lang), after="tagger")	
print("after", nlp.pipe_names)before ['tagger', 'parser', 'ner']after ['tagger', 'WordnetAnnotator', 'parser', 'ner']

在英语中，有些词因为有多重含义而臭名昭著。

例如，在WordNet (http://wordnetweb.princeton.edu/perl/webwn?s=star&sub=Search+WordNet&o2&o0=1&o8=1&o1= 1&o1=1&o7&o5&o9&o6&o3&o4&h) 搜索与单词withdraw相关的词义。

现在让我们使用spaCy执行自动查找:

token = nlp("withdraw")[0]	
token._.wordnet.synsets()

[Synset('withdraw.v.01'),	
Synset('retire.v.02'),	
Synset('disengage.v.01'),	
Synset('recall.v.07'),	
Synset('swallow.v.05'),	
Synset('seclude.v.01'),	
Synset('adjourn.v.02'),	
Synset('bow_out.v.02'),	
Synset('withdraw.v.09'),	
Synset('retire.v.08'),	
Synset('retreat.v.04'),	
Synset('remove.v.01')]

token._.wordnet.lemmas()

[Lemma('withdraw.v.01.withdraw'),	
Lemma('withdraw.v.01.retreat'),	
Lemma('withdraw.v.01.pull_away'), 	
Lemma('withdraw.v.01.draw_back'), 	
Lemma('withdraw.v.01.recede'),	
Lemma('withdraw.v.01.pull_back'), 	
Lemma('withdraw.v.01.retire'),	
…

token._.wordnet.wordnet_domains()

['astronomy',	
'school',	
'telegraphy',	
'industry',	
'psychology',	
'ethnology',	
'ethnology',	
'administration',	
'school',	
'finance',	
'economy',	
'exchange',	
'banking',	
'commerce',	
'medicine',	
'ethnology', 	
'university',	
…

同样，如果你使用的是知识图谱，那么可以将来自WordNet的那些“词义”链接与图算法一起使用，以帮助识别特定单词的含义。还可以通过一种称为“摘要”的技术来为较大的文本段生成摘要。这些内容超出了本教程的范围，但它是目前工业中一个有趣的自然语言应用。

反过来说，如果你预先知道某个文档是关于某个特定领域或主题集的，则可以约束WordNet返回的含义。在下面的例子中，我们来考虑金融和银行领域数据的NLU结果:

domains = ["finance", "banking"]	
sentence = nlp("I want to withdraw 5,000 euros.")	

	
enriched_sent = []	

	
for token in sentence:	
    # get synsets within the desired domains	
    synsets = token._.wordnet.wordnet_synsets_for_domain(domains)	

	
    if synsets:	
       lemmas_for_synset = []	

	
       for s in synsets:	
           # get synset variants and add to the enriched sentence	
           lemmas_for_synset.extend(s.lemma_names())	
           enriched_sent.append("({})".format("|".join(set(lemmas_for_synset))))	
    else:	
        enriched_sent.append(token.text)	

	
print(" ".join(enriched_sent))

I (require|want|need) to (draw_off|withdraw|draw|take_out) 5,000 euros .

这个例子看起来很简单，但是，如果你修改domains列表，你会发现在没有合理约束的情况下，结果会产生组合爆炸。想象一下，有一个包含数百万元素的知识图谱:您希望在可能的地方限制搜索，以避免计算每个查询需要几天、几周、几个月、几年的时间。

有时在试图理解文本时遇到的问题—或者在试图理解语料库 (包含许多相关文本的数据集) 时遇到的问题—会变得非常复杂，您需要首先将其可视化。这有是一个用于理解文本的交互式可视化工具:scattertext （https://spacy.io/universe/project/scattertext），由Jason Kessler主导设计。

Jason Kessler

https://twitter.com/jasonkessler

让我们来分析一下2012年美国总统大选期间政党大会的文本数据。注意:这个部分可能需要几分钟来运行，但是所有这些数据处理的结果值得等待。

import scattertext as st 	
if "merge_entities" not in nlp.pipe_names:    	
nlp.add_pipe(nlp.create_pipe("merge_entities")) 	
if "merge_noun_chunks" not in nlp.pipe_names:    	
nlp.add_pipe(nlp.create_pipe("merge_noun_chunks")) 	
convention_df = st.SampleCorpora.ConventionData2012.get_data()	
corpus = st.CorpusFromPandas(convention_df, 	
category_col="party",                            	
text_col="text",                            	
nlp=nlp).build()

一旦语料库准备好了，就可以生成一个交互式可视化的HTML:

html = st.produce_scattertext_explorer(	
    corpus,	
    category="democrat",	
    category_name="Democratic",	
    not_category_name="Republican",	
    width_in_pixels=1000,	
    metadata=convention_df["speaker"]	
)

from IPython.display import IFrame 	

	
file_name = "foo.html" 	
with open(file_name, "wb") as f:	
     f.write(html.encode("utf-8")) 	
     IFrame(src=file_name, width = 1200, height=700)

现在我们将渲染html：一到两分钟进行加载；

想象一下，如果你的组织中有过去三年客户支持某个特定产品的文本。假设您的团队需要了解客户是如何谈论该产品的? 这个scattertext库可能会非常方便! 您可以将 (k=2) 聚类在NPS得分 (客户评估指标) 上，然后用聚类中的前两个分类替换民主党/共和党维度。

总结

五年前，如果你询问用Python中的自然语言的开源库，许多数据科学工作者的默认答案是NLTK (https://www.nltk.org/) 。这个项目几乎包括了所有的东西，除了一些细微的设置，还有一些相对学术的部分。

另一个流行的自然语言项目是来自斯坦福的CoreNLP (https://stanfordnlp.github) 。尽管CoreNLP功能强大，但它也非常学术化，不过要将它与其他软件集成以供生产使用是很有挑战性的。

几年前，自然语言的一切都开始发生了变化。spaCy的两位主要作者——马修•洪尼巴尔 (Matthew Honnibal, https://twitter.com/honnibal) 和伊内斯•蒙塔尼 (Ines Montani, https://twitter.com/_inesmontani) 于2015年启动了该项目，该项目很快被业界采用。他们采用的是一种专注的方法 (做需要做的，把它做好，不多也不少) ，这种方法能简单、快速地集成到Python中的数据科学工作集合中，并且比其他方法执行更快、准确性更好。

基于这些，spaCy成为了NLTK的对立面。自2015年以来，spaCy一直致力于成为一个开源项目 (即，取决于其社区的方向，集成等) 和商业级软件 (而非学术研究) 。也就是说，spaCy迅速地将机器学习方面的最前沿进展纳入中，有效地成为了将学术研究推广到工业领域的渠道。

值得注意的是，随着谷歌开始赢得国际语言翻译比赛，用于自然语言的的机器学习自2000年中期得到了很大的发展。2017年至2018年期间，随着深度学习的诸多成功，这些方法开始超越以前的机器学习模型，出现了另一个重大变化。

例如,经Allen AI研究提出的看到ELMo 语言嵌入模型, 随后是谷歌的BERT，(https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html),以及最近由

百度推出的ERNIE

(https://medium.com/syncedreview/baidus-ernie-tops-google-s-bert-in-chinese-nlp-tasks-d6a42b49223d) ——换句话说,搜索引擎巨头为我们献上了一份基于深度学习的嵌入语言模型开源大礼的世界，目前是业界最先进的。

说到这里，为了紧随自然语言的SOTA，可以关注 NLP-Progress(http://nlpprogress.com/) 和 Papers with Cod(https://paperswithcode.com/sota) 。

在过去的两年里，随着深度学习技术的兴起，自然语言的用例发生了巨大的变化。大约在2014年，使用Python的自然语言教程可能还在教单词统计、关键字搜索或情感检测，而且目标用例相对显得平淡无奇。而在2019年，我们谈论的是在一个产业供应链的优化中分析成千上万的供应商合同文件，或者是为保险公司分析的投保人数亿份文件，又或者是大量关于财务数据披露的文件。更现代的自然语言工作倾向于在NLU，通常支持知识图谱的构建，在NLG领域，大量类似的文档可以被大规模地总结。

广阔的宇宙（https://spacy.io/universe）很不错，可以查找特定用例的深度，并查看这个领域是如何发展的。这个“宇宙”的一些选择包括:

blackstone （https://spacy.io/universe/project/blackstone） -解析非结构化法律信息文本

kindred (https://spacy.io/universe/project/kindred) -从生物医学文本 (如Pharma) 中提取实体

mordecai (https://spacy.io/universe/project/mordecai) -解析地理信息

Prodigy (https://spacy.io/universe/project/prodigy) -人机回圈的标签数据集注释spacy-raspberry (https://spacy.io/universe/project/spacy-raspberry) - 树莓派（Raspberry PI）图像，用于在边界设备上运行。

Rasa NLU （https://spacy.io/universe/project/rasa）聊天应用的集合

另外还有一些非常新的项目需要关注：

spacy-pytorch-transformers （https://explosion.ai/blog/spacy-pytorch-transformers）可以用来与BERT, GPT-2, XLNet,等等进行调整。

spaCy IRL 2019 （https://irl.spacy.io/2019/）会议-宽大的IRL 2019 （https://irl.spacy.io/2019/）会议-查看演讲视频!对于spaCy，我们可以做的还有很多——希望本教程能够提供介绍。我们祝愿你在自然语言学习方面一切顺利。

对于spaCy，我们可以做的还有很多——希望本教程能够提供介绍。我们祝愿你在自然语言学习方面一切顺利。

原文地址：

https://www.kdnuggets.com/2019/09/natural-language-python-using-spacy-introduction.html

编辑：王菁

校对：林亦霖

译者简介

笪洁琼，中南财大MBA在读,目前研究方向：金融大数据。目前正在学习如何将py等其他软件广泛应用于金融实际操作中，例如抓包预测走势（不会预测股票/虚拟币价格）。可能是金融财务中最懂建筑设计（风水方向）的长腿女生。花式调酒机车冲沙。上赛场里跑过步开过车，商院张掖丝路挑战赛3天徒步78公里。大美山水心欲往，凛冽风雨信步行

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：datapi），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

你可能感兴趣的:(独家 | 快速掌握spacy在python中进行自然语言处理（附代码&链接）)

本地部署OpenHands AI助手，自动化编程提升开发效率
文章目录前言1、关于OpenHands2、部署OpenHands步骤3、简单使用openhands4、安装cpolar内网穿透5、配置公网地址6、配置固定二级子域名公网地址总结前言亲爱的朋友，是否曾在深夜面对层层叠叠的代码逻辑感到力不从心？每当调试器不断报错时，是否幻想过能有个智能伙伴分担压力？现在，一款颠覆传统开发模式的智能工具——OpenHands正式登场！这款专为开发者打造的AI助手，不仅具
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
【赵渝强老师】达梦数据库的闪回技术数据库达梦数据库信创
达梦数据库提供的闪回技术主要是在数据库发生逻辑错误的时候，能提供快速且最小损失的恢复。闪回技术旨在快速恢复数据库的逻辑错误。对于物理介质的损坏或者物理文件丢失，就不能使用闪回进行恢复。闪回特性可应用在以下方面：自我维护过程中的修复：当一些重要的记录被意外删除，用户可以向后移动到一个时间点，查看丢失的行并把它们重新插入现在的表内恢复。用于分析数据变化：可以对同一张表的不同闪回时刻进行链接查询，以此查
06_项目集成 Spring Actuator 并实现可视化页面耀耀_很无聊【后端开发】Java 碎碎念 spring java 后端
06_项目集成SpringActuator并实现可视化页面一、引入SpringActuator依赖在pom.xml文件中添加以下依赖：org.springframework.bootspring-boot-starter-actuator⚙️二、SpringActuator配置2.1配置端点访问前缀SpringBoot默认的Actuator端点访问地址是：http://localhost:8080
golang实现从request请求返回的response中提取网站图标的faviconMMH3, faviconMD5, faviconPath, faviconData, faviconURL
golang实现从request请求返回的response中提取网站图标的faviconMMH3,faviconMD5,faviconPath,faviconData,faviconURL，其中faviconData类型为[]byte，其余为string类型。在Go中提取网站的favicon（网站图标）并计算其MMH3和MD5哈希值，同时获取路径、原始数据和URL，可以通过以下步骤实现：packa
LabVIEW用户界面设计
LabVIEW用户界面设计如需将一个VI作为用户界面或对话框，前面板的外观和布局非常重要。前面板的设计应类似于仪器或其它设备，以使用户更容易识别进行何种操作。使用前面板控件、分隔栏和窗格、窗口设置等等，改进前面板的易用性。也可使用事件增强用户界面的功能。编辑添加图片注释，不超过140字（可选）设计前面板输入控件和显示控件是前面板的重要组成部分。设计用户界面类前面板时需遵循下列规范：考虑用户如何与V
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
定制console.log的样式司徒小北 javascript 前端开发语言
在浏览器环境里，你能够借助CSS样式来自定义console.log输出内容的外观。具体做法是在console.log里添加%c占位符，接着在后面的参数中传入对应的CSS样式字符串。下面有几个具体的示例，展示了如何定制console.log的样式：//基础的彩色文本console.log('%c这是红色文字','color:red');console.log('%c这是蓝色文字','color:bl
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
【pycharm专业版】【如何远程配置Python解释器】【SSH】资源存储库 python pycharm
Wejustlookedatconfiguringalocalinterpreter.Butwedon’talwayshavea“local”environment.Sometimes–andincreasinglyoften–ourenvironmentisoverthere.我们刚刚看了配置本地解释器。但我们并不总是有一个“本地”的环境。有时候–而且越来越多的时候–我们的环境就在那里。Let’
给pycharm配置conda环境无响应...如何解决？ bug菌¹ 全栈Bug调优(实战版)pycharm conda java python
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！备注：部分问题/疑难杂症搜集于互联网。全文目录：问题描述解决方案（请知悉：如下方案不保证一定适配你的问题）问题分析解决方案总结文末福利，等你来拿！✨️WhoamI?问题描
python线程同步锁_python的Lock锁，线程同步 weixin_39649660 python线程同步锁
一、Lock锁凡是存在共享资源争抢的地方都可以使用锁，从而保证只有一个使用者可以完全使用这个资源一旦线程获得锁，其他试图获取锁的线程将被阻塞acquire(blocking=True,timeout=-1):默认阻塞，阻塞可以设置超时时间，非阻塞时，timeout禁止设置，成功获取锁，返回True，否则返回Falsereleas():释放锁，可以从任何线程调用释放，已上锁的锁，会被重置为unloc
【实习日记】day02 verse_armour 实习日记 python linux 开发语言
今日工作小结与技术备忘今天我们主要围绕一个基于Poetry和Conda的MONAI检测项目，解决了一系列从环境配置到依赖安装的复杂问题。整个过程就像一次深度探案，最终成功理清了所有障碍。一、今日遇到的主要问题与解决方案我们今天解决了四个核心的“拦路虎”：1.Poetry安装与网络问题现象：最初，在安装Poetry依赖时，出现Nomatchingdistributionfoundfordulwich
并发与并行：python多线程详解 m_merlon python 服务器 Python进阶教程 python
简介多进程和多线程都可以执行多个任务，线程是进程的一部分。线程的特点是线程之间可以共享内存和变量，资源消耗少，缺点是线程之间的同步和加锁比较麻烦。在cpython中，截止到3.12为止依然存在全局解释器锁（GIL）,不能发挥多核的优势，因此python多线程更适合IO密集型任务并发提高效率，CPU密集型任务推荐使用多进程并行解决。注：此说法仅适用于python（如：c++的多线程可以利用到多核并行
Linux (Ubuntu) conda：未找到命令报错处理司南锤 cs基础 linux linux ubuntu conda
检查安装路径：确认Anaconda或Miniconda是否已经安装。通常，安装路径在用户主目录下，例如~/anaconda3或~/miniconda3。添加路径到环境变量：如果知道Anaconda或Miniconda的安装路径，可以手动将路径添加到环境变量中。例如，如果安装路径是~/anaconda3，可以在终端中输入以下命令：exportPATH=~/anaconda3/bin:$PATH为了使
python多线程：生产者与消费者，高级锁定Condition、queue队列使用案例与注意事项网小鱼的学习笔记 Python python java 大数据
高级锁定这是python中的另一种中锁定，就像是它的名字一样是可以有条件的condition，首先程序使用acquire进入锁定状态，如果需要符合一定的条件才处理数据，此时可以调用wait，让自己进入睡眠状态，程序设计时候需要用notify通知其他线程，然后放弃锁定release此时其他再等待的线程因为受到通知notify，这时候被激活了，就开始运作。生产者与消费者的设计程序用producer方法
python协程与异步并发，同步与阻塞，异步与非阻塞，Python异步IO、协程与同步原语介绍，协程的优势和劣势网小鱼的学习笔记 Python python 服务器开发语言
协程与异步软件系统的并发使用异步IO，无非是我们提的软件系统的并发，这个软件系统，可以是网络爬虫，也可以是web服务等并发的方式有多种，多线程，多进程，异步IO等多线程和多进程更多应用于CPU密集型的场景，比如科学计算的事件都消耗在CPU上面，利用多核CPU来分担计算任务多线程和多进程之间的场景切换和通讯代价很高，不适合IO密集型的场景，而异步IO就是非常适合IO密集型的场景，例如网络爬虫和web
【Game】Powerful——Pet Skin（13）苏堤春不晓 Travel /Life 幻唐志皮肤回合制
文章目录特殊65~105115~125135~145特殊重炮小熊灵石护卫mini版蒲牢，不过饰物要m天篷岩浆造型不错65~105蒲牢海螺套装幽灵虎帅，感觉当坐骑也不错，6技能YYDS幽灵虎这个皮肤感觉一般，有点鸟化了，羽毛的感觉第二个皮肤，足见其在105的地位妙音死亡骑士我佛慈悲，胸前的法珠拉风死亡骑士折纸版本差点意思，模型变小了感觉，不够大气芙蓉仙子清凉一夏，柠檬雪舞月跃龙门，鲤鱼很好看，个人认
使用Python和FFmpeg实现RGB到YUV444的转换追逐程序梦想者 ffmpeg python 开发语言
使用Python和FFmpeg实现RGB到YUV444的转换如果你需要将RGB图像转换为YUV444格式的图像，那么本文将为你提供一个简单且可靠的方法。我们将使用Python和FFmpeg来完成这个任务。首先，让我们了解一下什么是RGB和YUV。RGB表示红、绿、蓝三种颜色的组合，是最常见的图像格式之一。另一方面，YUV是一种亮度-色度编码，用于视频压缩和传输，它将图像分成明亮度（Y）和色度（U和
如何利用ssh使得pycharm连接服务器的docker容器内部环境 SoulMatter docker 容器运维 pycharm ssh
如题，想要配置服务器的python编译器环境，来查看容器内部环境安装的包的情况。首先，需要确定容器的状态，使用dockerps查看，只有ports那一栏有内容才证明容器暴露了端口出来。如果没有暴露，就需要将容器打包成镜像，然后将镜像再启动一个容器才可以。步骤如下：如何打包镜像：(里面包括了将镜像从A服务器远程传输到B服务器后使用的方法，如果是在本服务器自己使用，那么忽略远程传输的步骤）#创建一个基
python多线程高级锁知识：Semaphore信号量、Barrier栅栏在线程中的使用、高级event事件网小鱼的学习笔记 Python python 开发语言
Semaphore信号量Semaphore信号量可以翻译为信号量，这个信号量代表了最多允许线程访问的数量，可以使用Semaphore(n)设定，n是信号数量，这是一个更高级的锁机制，Semaphore管理一个计数器，每次使用acquire计数器将会减一，表示可以允许线程访问的数量少了一个，使用release计数器加1，表示可允许线程访问的数量多了一个，只有占用信号量的线程数量超过信号量时候才会阻塞
LangChain4j在Java企业应用中的实战指南-2 在未来等你大模型应用开发 AI 技术编程 Java Spring
LangChain4j在Java企业应用中的实战指南文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM）的广泛应用，企业对智能应用的需求日益增长。LangChain4j作为一款专为Java生态打造的LLM集成框架，正在成为构建RAG（检索增强生成）系统和智能应用的重要工具。本
产品背景知识——在线推理和离线推理爱吃芝麻汤圆 #产品背景知识推理
产品背景知识——在线推理和离线推理一、核心区别：从4个维度对比1.数据处理方式与时效性在线推理（实时推理）数据特点：处理实时流入的单条或小批量数据（如用户点击、交易请求）。时效性要求：需在毫秒级到秒级内返回结果，延迟直接影响用户体验或业务决策。典型场景：电商推荐系统（用户浏览商品时实时推荐）、金融风控（交易时实时欺诈检测）。离线推理（批量推理）数据特点：处理历史累积的大规模数据集（如TB级日志、数
产品背景知识——Region和Zone 爱吃芝麻汤圆 #产品背景知识分布式
产品背景知识——Region和Zone一、基本定义1.Region（区域）含义：通常指较大范围的地理区域，可包含多个物理位置或数据中心。例子：在云计算中，如AWS的“亚太地区（东京）”“北美地区（弗吉尼亚）”就是不同的region，每个region是一个独立的地理区域，包含多个可用区（zone）。地图服务中，“华东地区”“欧洲地区”也属于region范畴。2.Zone（可用区/区域）含义：范围小于
Vue3组件通信 whhhhhhhhhw vue.js 前端 javascript vue组件通信学习前端框架
前言：在组件化开发中，需要将页面抽离成组件的形式，抽离之后就涉及到了组件中数据传递，可分为：父传子（props）、子传父（emits）、祖孙通信（provide和inject）、兄弟通信、全局通讯（pinia）。这次我就以博客的形式复习一下前三种通讯，想了解pinia可点击看我前面写的博客。1.父传子首先需要在父组件中的子组件标签中添加自定义属性，将需要传递的值放如自定义属性中，在子组件中通过de
axios的使用以及封装 whhhhhhhhhw 前端 vue.js javascript 学习 axios
前言：在现代前端开发中，网络请求是不可避免的核心功能之一。无论是获取后端数据、提交表单信息，还是与第三方API交互，高效且可靠的HTTP请求库至关重要。axios作为一款基于Promise的HTTP客户端，凭借其简洁的API设计、强大的拦截器机制以及广泛的浏览器和Node.js兼容性，成为开发者首选的工具之一。axios不仅提供了基础的GET、POST等请求方法，还支持请求和响应的拦截、取消请求、
JavaScript数组方法 whhhhhhhhhw javascript 开发语言 ecmascript 前端 html
前言：JavaScript这门强大而灵活的编程语言中，数组（Array）无疑是最基础且使用最频繁的数据结构之一。它允许我们以有序的方式存储多个值，并提供了丰富的内置方法来操作这些值，包括但不限于添加、删除、搜索、遍历等。掌握JavaScript数组的方法，不仅能够提高我们的编程效率，还能让我们在处理复杂数据结构时更加得心应手。本文将全面解析JavaScript数组的各种常用方法，并通过实战示例展示
python:assert和raise区别 Covirtue python
assert和raise是在错误处理方面的两个不同的用法。assert是一种断言语句，用于在代码中检查一个条件是否为True。如果条件为False，它会引发一个AssertionError异常。assert主要用于调试目的，以确保代码的正确性。当代码被优化时，assert语句可能会被自动忽略。例如：```pythonx=5assertx>0,"x必须大于0"```如果x不大于0，将引发Assert
Python读取红外图像 - 实现红外图像的读取和处理程序员杨弋 Python全栈工程师学习指南 python 计算机视觉 opencv
在许多工业、安防等领域中，红外图像无疑是一种不可或缺的重要资源，因此，能够快速、准确地读取和处理红外图像，对于工程师和科学家来说非常必要。Python作为一种强大的编程语言，提供了丰富的图像处理库，允许我们轻松地读取和处理红外图像，本文将介绍如何使用Python读取红外图像，并对其进行简单的处理。首先需要准备一个目标红外图像文件，这里我们以bmp格式的文件为例：importcv2img=cv2.i
python raise和assert的区别 40kuai
python中raise和assert的区别一、使用raise抛出异常python可以自动触发异常，raise（内置函数）的定义为显示的抛出异常，用户可以使用raise进行判断，显式的引发异常，raise执行后程序将不再向下执行。式例：#!/usr/bin/envpython#-*-coding:utf-8-*-__author__='40kuai'books_dict={'name':'pyth
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n