nkwshuyi

如何用Python处理自然语言？（Spacy与Word Embedding）

本文教你用简单易学的工业级Python自然语言处理软件包Spacy，对自然语言文本做词性分析、命名实体识别、依赖关系刻画，以及词嵌入向量的计算和可视化。

（由于微信公众号外部链接的限制，文中的部分链接可能无法正确打开。如有需要，请点击文末的“阅读原文”按钮，访问可以正常显示外链的版本。）

盲维

我总爱重复一句芒格爱说的话：

To the one with a hammer, everything looks like a nail. （手中有锤，看什么都像钉）

这句话是什么意思呢？

就是你不能只掌握数量很少的方法、工具。

否则你的认知会被自己能力框住。不只是存在盲点，而是存在“盲维”。

你会尝试用不合适的方法解决问题（还自诩“一招鲜，吃遍天”），却对原本合适的工具视而不见。

结果可想而知。

所以，你得在自己的工具箱里面，多放一些兵刃。

最近我又对自己的学生，念叨芒格这句话。

因为他们开始做实际研究任务的时候，一遇到自然语言处理(Natural Language Processing, NLP)，脑子里想到的就是词云、情感分析和LDA主题建模。

为什么？

因为我的专栏和公众号里，自然语言处理部分，只写过这些内容。

你如果认为，NLP只能做这些事，就大错特错了。

看看这段视频，你大概就能感受到目前自然语言处理的前沿，已经到了哪里。

当然，你手头拥有的工具和数据，尚不能做出Google展示的黑科技效果。

但是，现有的工具，也足可以让你对自然语言文本，做出更丰富的处理结果。

科技的发展，蓬勃迅速。

除了咱们之前文章中已介绍过的结巴分词、SnowNLP和TextBlob，基于Python的自然语言处理工具还有很多，例如 NLTK 和 gensim 等。

我无法帮你一一熟悉，你可能用到的所有自然语言处理工具。

但是咱们不妨开个头，介绍一款叫做 Spacy 的 Python 工具包。

剩下的，自己举一反三。

工具

Spacy 的 Slogan，是这样的：

Industrial-Strength Natural Language Processing. （工业级别的自然语言处理）

如何用Python处理自然语言？（Spacy与Word Embedding）_第2张图片

这句话听上去，是不是有些狂妄啊？

不过人家还是用数据说话的。

数据采自同行评议(Peer-reviewed)学术论文：

如何用Python处理自然语言？（Spacy与Word Embedding）_第3张图片

看完上述的数据分析，我们大致对于Spacy的性能有些了解。

但是我选用它，不仅仅是因为它“工业级别”的性能，更是因为它提供了便捷的用户调用接口，以及丰富、详细的文档。

仅举一例。

如何用Python处理自然语言？（Spacy与Word Embedding）_第4张图片

上图是Spacy上手教程的第一页。

可以看到，左侧有简明的树状导航条，中间是详细的文档，右侧是重点提示。

仅安装这一项，你就可以点击选择操作系统、Python包管理工具、Python版本、虚拟环境和语言支持等标签。网页会动态为你生成安装的语句。

如何用Python处理自然语言？（Spacy与Word Embedding）_第5张图片

这种设计，对新手用户，很有帮助吧？

Spacy的功能有很多。

从最简单的词性分析，到高阶的神经网络模型，五花八门。

篇幅所限，本文只为你展示以下内容：

词性分析
命名实体识别
依赖关系刻画
词嵌入向量的近似度计算
词语降维和可视化

学完这篇教程，你可以按图索骥，利用Spacy提供的详细文档，自学其他自然语言处理功能。

我们开始吧。

环境

请点击这个链接（http://t.cn/R35fElv），直接进入咱们的实验环境。

对，你没看错。

你不需要在本地计算机安装任何软件包。只要有一个现代化浏览器（包括Google Chrome, Firefox, Safari和Microsoft Edge等）就可以了。全部的依赖软件，我都已经为你准备好了。

打开链接之后，你会看见这个页面。

如何用Python处理自然语言？（Spacy与Word Embedding）_第6张图片

不同于之前的 Jupyter Notebook，这个界面来自 Jupyter Lab。

你可以将它理解为 Jupyter Notebook 的增强版，它具备以下特征：

代码单元直接鼠标拖动；
一个浏览器标签，可打开多个Notebook，而且分别使用不同的Kernel；
提供实时渲染的Markdown编辑器；
完整的文件浏览器；
CSV数据文件快速浏览
……

图中左侧分栏，是工作目录下的全部文件。

右侧打开的，是咱们要使用的ipynb文件。

根据咱们的讲解，请你逐条执行，观察结果。

我们说一说样例文本数据的来源。

如果你之前读过我的其他自然语言处理方面的教程，应该记得这部电视剧。

如何用Python处理自然语言？（Spacy与Word Embedding）_第7张图片

对，就是"Yes, Minister"。

出于对这部80年代英国喜剧的喜爱，我还是用维基百科上"Yes, Minister"的介绍内容，作为文本分析样例。

如何用Python处理自然语言？（Spacy与Word Embedding）_第8张图片

下面，我们就正式开始，一步步执行程序代码了。

我建议你先完全按照教程跑一遍，运行出结果。

如果一切正常，再将其中的数据，替换为你自己感兴趣的内容。

之后，尝试打开一个空白 ipynb 文件，根据教程和文档，自己敲代码，并且尝试做调整。

这样会有助于你理解工作流程和工具使用方法。

实践

我们从维基百科页面的第一自然段中，摘取部分语句，放到text变量里面。

text = "The sequel, Yes, Prime Minister, ran from 1986 to 1988. In total there were 38 episodes, of which all but one lasted half an hour. Almost all episodes ended with a variation of the title of the series spoken as the answer to a question posed by the same character, Jim Hacker. Several episodes were adapted for BBC Radio, and a stage play was produced in 2010, the latter leading to a new television series on UKTV Gold in 2013."

显示一下，看是否正确存储。

text

'The sequel, Yes, Prime Minister, ran from 1986 to 1988. In total there were 38 episodes, of which all but one lasted half an hour. Almost all episodes ended with a variation of the title of the series spoken as the answer to a question posed by the same character, Jim Hacker. Several episodes were adapted for BBC Radio, and a stage play was produced in 2010, the latter leading to a new television series on UKTV Gold in 2013.'

没问题了。

下面我们读入Spacy软件包。

import spacy

我们让Spacy使用英语模型，将模型存储到变量nlp中。

nlp = spacy.load('en')

下面，我们用nlp模型分析咱们的文本段落，将结果命名为doc。

doc = nlp(text)

我们看看doc的内容。

doc

The sequel, Yes, Prime Minister, ran from 1986 to 1988. In total there were 38 episodes, of which all but one lasted half an hour. Almost all episodes ended with a variation of the title of the series spoken as the answer to a question posed by the same character, Jim Hacker. Several episodes were adapted for BBC Radio, and a stage play was produced in 2010, the latter leading to a new television series on UKTV Gold in 2013.

好像跟刚才的text内容没有区别呀？不还是这段文本吗？

别着急，Spacy只是为了让我们看着舒服，所以只打印出来文本内容。

其实，它在后台，已经对这段话进行了许多层次的分析。

不信？

我们来试试，让Spacy帮我们分析这段话中出现的全部词例（token）。

for token in doc:
    print('"' + token.text + '"')

你会看到，Spacy为我们输出了一长串列表。

"The"
"sequel"
","
"Yes"
","
"Prime"
"Minister"
","
"ran"
"from"
"1986"
"to"
"1988"
"."
"In"
"total"
"there"
"were"
"38"
"episodes"
","
"of"
"which"
"all"
"but"
"one"
"lasted"
"half"
"an"
"hour"
"."
"Almost"
"all"
"episodes"
"ended"
"with"
"a"
"variation"
"of"
"the"
"title"
"of"
"the"
"series"
"spoken"
"as"
"the"
"answer"
"to"
"a"
"question"
"posed"
"by"
"the"
"same"
"character"
","
"Jim"
"Hacker"
"."
"Several"
"episodes"
"were"
"adapted"
"for"
"BBC"
"Radio"
","
"and"
"a"
"stage"
"play"
"was"
"produced"
"in"
"2010"
","
"the"
"latter"
"leading"
"to"
"a"
"new"
"television"
"series"
"on"
"UKTV"
"Gold"
"in"
"2013"
"."

你可能不以为然——这有什么了不起？

英语本来就是空格分割的嘛！我自己也能编个小程序，以空格分段，依次打印出这些内容来！

别忙，除了词例内容本身，Spacy还把每个词例的一些属性信息，进行了处理。

下面，我们只对前10个词例（token），输出以下内容：

文本
索引值（即在原文中的定位）
词元(lemma)
是否为标点符号
是否为空格
词性
标记

for token in doc[:10]:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text,
        token.idx,
        token.lemma_,
        token.is_punct,
        token.is_space,
        token.shape_,
        token.pos_,
        token.tag_
    ))

结果为：

The 0   the False   False   Xxx DET DT
sequel  4   sequel  False   False   xxxx    NOUN    NN
,   10  ,   True    False   ,   PUNCT   ,
Yes 12  yes False   False   Xxx INTJ    UH
,   15  ,   True    False   ,   PUNCT   ,
Prime   17  prime   False   False   Xxxxx   PROPN   NNP
Minister    23  minister    False   False   Xxxxx   PROPN   NNP
,   31  ,   True    False   ,   PUNCT   ,
ran 33  run False   False   xxx VERB    VBD
from    37  from    False   False   xxxx    ADP IN

看到Spacy在后台默默为我们做出的大量工作了吧？

下面我们不再考虑全部词性，只关注文本中出现的实体（entity）词汇。

for ent in doc.ents:
    print(ent.text, ent.label_)

1986 to 1988 DATE
38 CARDINAL
one CARDINAL
half an hour TIME
Jim Hacker PERSON
BBC Radio ORG
2010 DATE
UKTV Gold ORG
2013 DATE

在这一段文字中，出现的实体包括日期、时间、基数（Cardinal）……Spacy不仅自动识别出了Jim Hacker为人名，还正确判定BBC Radio和UKTV Gold为机构名称。

如果你平时的工作，需要从海量评论里筛选潜在竞争产品或者竞争者，那看到这里，有没有一点儿灵感呢？

执行下面这段代码，看看会发生什么：

from spacy import displacy
displacy.render(doc, style='ent', jupyter=True)

如何用Python处理自然语言？（Spacy与Word Embedding）_第9张图片

如上图所示，Spacy帮我们把实体识别的结果，进行了直观的可视化。不同类别的实体，还采用了不同的颜色加以区分。

把一段文字拆解为语句，对Spacy而言，也是小菜一碟。

for sent in doc.sents:
    print(sent)

The sequel, Yes, Prime Minister, ran from 1986 to 1988.
In total there were 38 episodes, of which all but one lasted half an hour.
Almost all episodes ended with a variation of the title of the series spoken as the answer to a question posed by the same character, Jim Hacker.
Several episodes were adapted for BBC Radio, and a stage play was produced in 2010, the latter leading to a new television series on UKTV Gold in 2013.

注意这里，doc.sents并不是个列表类型。

doc.sents

所以，假设我们需要从中筛选出某一句话，需要先将其转化为列表。

list(doc.sents)

[The sequel, Yes, Prime Minister, ran from 1986 to 1988.,
 In total there were 38 episodes, of which all but one lasted half an hour.,
 Almost all episodes ended with a variation of the title of the series spoken as the answer to a question posed by the same character, Jim Hacker.,
 Several episodes were adapted for BBC Radio, and a stage play was produced in 2010, the latter leading to a new television series on UKTV Gold in 2013.]

下面要展示的功能，分析范围局限在第一句话。

我们将其抽取出来，并且重新用nlp模型处理，存入到新的变量newdoc中。

newdoc = nlp(list(doc.sents)[0].text)

对这一句话，我们想要搞清其中每一个词例（token）之间的依赖关系。

for token in newdoc:
    print("{0}/{1} <--{2}-- {3}/{4}".format(
        token.text, token.tag_, token.dep_, token.head.text, token.head.tag_))

The/DT <--det-- sequel/NN
sequel/NN <--nsubj-- ran/VBD
,/, <--punct-- sequel/NN
Yes/UH <--intj-- sequel/NN
,/, <--punct-- sequel/NN
Prime/NNP <--compound-- Minister/NNP
Minister/NNP <--appos-- sequel/NN
,/, <--punct-- sequel/NN
ran/VBD <--ROOT-- ran/VBD
from/IN <--prep-- ran/VBD
1986/CD <--pobj-- from/IN
to/IN <--prep-- from/IN
1988/CD <--pobj-- to/IN
./. <--punct-- ran/VBD

很清晰，但是列表的方式，似乎不大直观。

那就让Spacy帮我们可视化吧。

displacy.render(newdoc, style='dep', jupyter=True, options={'distance': 90})

结果如下：

如何用Python处理自然语言？（Spacy与Word Embedding）_第10张图片

这些依赖关系链接上的词汇，都代表什么？

如果你对语言学比较了解，应该能看懂。

不懂？查查字典嘛。

跟语法书对比一下，看看Spacy分析得是否准确。

前面我们分析的，属于语法层级。

下面我们看语义。

我们利用的工具，叫做词嵌入（word embedding）模型。

之前的文章《如何用Python从海量文本抽取主题？》中，我们提到过如何把文字表达成电脑可以看懂的数据。

如何用Python处理自然语言？（Spacy与Word Embedding）_第11张图片

文中处理的每一个单词，都仅仅对应着词典里面的一个编号而已。你可以把它看成你去营业厅办理业务时领取的号码。

它只提供了先来后到的顺序信息，跟你的职业、学历、性别统统没有关系。

我们将这样过于简化的信息输入，计算机对于词义的了解，也必然少得可怜。

例如给你下面这个式子：

? - woman = king - queen

只要你学过英语，就不难猜到这里大概率应该填写“man”。

但是，如果你只是用了随机的序号来代表词汇，又如何能够猜到这里正确的填词结果呢？

幸好，在深度学习领域，我们可以使用更为顺手的单词向量化工具——词嵌入（word embeddings ）。

如何用Python处理自然语言？（Spacy与Word Embedding）_第12张图片

如上图这个简化示例，词嵌入把单词变成多维空间上面的向量。

这样，词语就不再是冷冰冰的字典编号，而是具有了意义。

使用词嵌入模型，我们需要Spacy读取一个新的文件。

nlp = spacy.load('en_core_web_lg')

为测试读取结果，我们让Spacy打印“minister”这个单词对应的向量取值。

print(nlp.vocab['minister'].vector)

如何用Python处理自然语言？（Spacy与Word Embedding）_第13张图片

可以看到，每个单词，用总长度为300的浮点数组成向量来表示。

顺便说一句，Spacy读入的这个模型，是采用word2vec，在海量语料上训练的结果。

我们来看看，此时Spacy的语义近似度判别能力。

这里，我们将4个变量，赋值为对应单词的向量表达结果。

dog = nlp.vocab["dog"]
cat = nlp.vocab["cat"]
apple = nlp.vocab["apple"]
orange = nlp.vocab["orange"]

我们看看“狗”和“猫”的近似度：

dog.similarity(cat)

0.80168545

嗯，都是宠物，近似度高，可以接受。

下面看看“狗”和“苹果”。

dog.similarity(apple)

0.26339027

一个动物，一个水果，近似度一下子就跌落下来了。

“狗”和“橘子”呢？

dog.similarity(orange)

0.2742508

可见，相似度也不高。

那么“苹果”和“橘子”之间呢？

apple.similarity(orange)

0.5618917

水果间近似度，远远超过水果与动物的相似程度。

测试通过。

看来Spacy利用词嵌入模型，对语义有了一定的理解。

下面为了好玩，我们来考考它。

这里，我们需要计算词典中可能不存在的向量，因此Spacy自带的similarity()函数，就显得不够用了。

我们从scipy中，找到相似度计算需要用到的余弦函数。

from scipy.spatial.distance import cosine

对比一下，我们直接代入“狗”和“猫”的向量，进行计算。

1 - cosine(dog.vector, cat.vector)

0.8016855120658875

除了保留数字外，计算结果与Spacy自带的similarity()运行结果没有差别。

我们把它做成一个小函数，专门处理向量输入。

def vector_similarity(x, y):
    return 1 - cosine(x, y)

用我们自编的相似度函数，测试一下“狗”和“苹果”。

vector_similarity(dog.vector, apple.vector)

0.2633902430534363

与刚才的结果对比，也是一致的。

我们要表达的，是这个式子：

? - woman = king - queen

我们把问号，称为 guess_word

所以

guess_word = king - queen + woman

我们把右侧三个单词，一般化记为 words。编写下面函数，计算guess_word取值。

def make_guess_word(words):
    [first, second, third] = words
    return nlp.vocab[first].vector - nlp.vocab[second].vector + nlp.vocab[third].vector

下面的函数就比较暴力了，它其实是用我们计算的 guess_word 取值，和字典中全部词语一一核对近似性。把最为近似的10个候选单词打印出来。

def get_similar_word(words, scope=nlp.vocab):

    guess_word = make_guess_word(words)

    similarities = []

    for word in scope:
        if not word.has_vector:
            continue

        similarity = vector_similarity(guess_word, word.vector)
        similarities.append((word, similarity))


    similarities = sorted(similarities, key=lambda item: -item[1])
    print([word[0].text for word in similarities[:10]])

好了，游戏时间开始。

我们先看看：

? - woman = king - queen

即：

guess_word = king - queen + woman

输入右侧词序列：

words = ["king", "queen", "woman"]

然后执行对比函数：

get_similar_word(words)

这个函数运行起来，需要一段时间。请保持耐心。

运行结束之后，你会看到如下结果：

['MAN', 'Man', 'mAn', 'MAn', 'MaN', 'man', 'mAN', 'WOMAN', 'womAn', 'WOman']

原来字典里面，“男人”(man)这个词汇有这么多的变形啊。

但是这个例子太经典了，我们尝试个新鲜一些的：

? - England = Paris - London

即：

guess_word = Paris - London + England

对你来讲，绝对是简单的题目。左侧国别，右侧首都，对应来看，自然是巴黎所在的法国（France）。

问题是，Spacy能猜对吗？

我们把这几个单词输入。

words = ["Paris", "London", "England"]

让Spacy来猜：

get_similar_word(words)

['france', 'FRANCE', 'France', 'Paris', 'paris', 'PARIS', 'EUROPE', 'EUrope', 'europe', 'Europe']

结果很令人振奋，前三个都是“法国”（France）。

下面我们做一个更有趣的事儿，把词向量的300维的高空间维度，压缩到一张纸（二维）上，看看词语之间的相对位置关系。

首先我们需要读入numpy软件包。

import numpy as np

我们把词嵌入矩阵先设定为空。一会儿慢慢填入。

embedding = np.array([])

需要演示的单词列表，也先空着。

word_list = []

我们再次让Spacy遍历“Yes, Minister”维基页面中摘取的那段文字，加入到单词列表中。注意这次我们要进行判断：

如果是标点，丢弃；
如果词汇已经在词语列表中，丢弃。

for token in doc:
    if not(token.is_punct) and not(token.text in word_list):
        word_list.append(token.text)

看看生成的结果：

word_list

['The',
 'sequel',
 'Yes',
 'Prime',
 'Minister',
 'ran',
 'from',
 '1986',
 'to',
 '1988',
 'In',
 'total',
 'there',
 'were',
 '38',
 'episodes',
 'of',
 'which',
 'all',
 'but',
 'one',
 'lasted',
 'half',
 'an',
 'hour',
 'Almost',
 'ended',
 'with',
 'a',
 'variation',
 'the',
 'title',
 'series',
 'spoken',
 'as',
 'answer',
 'question',
 'posed',
 'by',
 'same',
 'character',
 'Jim',
 'Hacker',
 'Several',
 'adapted',
 'for',
 'BBC',
 'Radio',
 'and',
 'stage',
 'play',
 'was',
 'produced',
 'in',
 '2010',
 'latter',
 'leading',
 'new',
 'television',
 'on',
 'UKTV',
 'Gold',
 '2013']

检查了一下，一长串（63个）词语列表中，没有出现标点。一切正常。

下面，我们把每个词汇对应的空间向量，追加到词嵌入矩阵中。

for word in word_list:
    embedding = np.append(embedding, nlp.vocab[word].vector)

看看此时词嵌入矩阵的维度。

embedding.shape

(18900,)

可以看到，所有的向量内容，都被放在了一个长串上面。这显然不符合我们的要求，我们将不同的单词对应的词向量，拆解到不同行上面去。

embedding = embedding.reshape(len(word_list), -1)

再看看变换后词嵌入矩阵的维度。

embedding.shape

(63, 300)

63个词汇，每个长度300，这就对了。

下面我们从scikit-learn软件包中，读入TSNE模块。

from sklearn.manifold import TSNE

我们建立一个同名小写的tsne，作为调用对象。

tsne = TSNE()

tsne的作用，是把高维度的词向量（300维）压缩到二维平面上。我们执行这个转换过程：

low_dim_embedding = tsne.fit_transform(embedding)

现在，我们手里拥有的 low_dim_embedding ，就是63个词汇降低到二维的向量表示了。

我们读入绘图工具包。

import matplotlib.pyplot as plt
%pylab inline

下面这个函数，用来把二维向量的集合，绘制出来。

如果你对该函数内容细节不理解，没关系。因为我还没有给你系统介绍过Python下的绘图功能。

好在这里我们只要会调用它，就可以了。

def plot_with_labels(low_dim_embs, labels, filename='tsne.pdf'):
    assert low_dim_embs.shape[0] >= len(labels), "More labels than embeddings"
    plt.figure(figsize=(18, 18))  # in inches
    for i, label in enumerate(labels):
        x, y = low_dim_embs[i, :]
        plt.scatter(x, y)
        plt.annotate(label,
                 xy=(x, y),
                 xytext=(5, 2),
                 textcoords='offset points',
                 ha='right',
                 va='bottom')
    plt.savefig(filename)

终于可以进行降维后的词向量可视化了。

请执行下面这条语句：

plot_with_labels(low_dim_embedding, word_list)

你会看到这样一个图形。

如何用Python处理自然语言？（Spacy与Word Embedding）_第14张图片

请注意观察图中的几个部分：

年份
同一单词的大小写形式
Radio 和 television
a 和 an

看看有什么规律没有？

我发现了一个有意思的现象——每次运行tsne，产生的二维可视化图都不一样！

不过这也正常，因为这段话之中出现的单词，并非都有预先训练好的向量。

这样的单词，被Spacy进行了随机化等处理。

因此，每一次生成高维向量，结果都不同。不同的高维向量，压缩到二维，结果自然也会有区别。

问题来了，如果我希望每次运行的结果都一致，该如何处理呢？

这个问题，作为课后思考题，留给你自行解答。

细心的你可能发现了，执行完最后一条语句后，页面左侧边栏文件列表中，出现了一个新的pdf文件。

如何用Python处理自然语言？（Spacy与Word Embedding）_第15张图片

这个pdf，就是你刚刚生成的可视化结果。你可以双击该文件名称，在新的标签页中查看。

如何用Python处理自然语言？（Spacy与Word Embedding）_第16张图片

看，就连pdf文件，Jupyter Lab也能正确显示。

下面，是练习时间。

请把ipynb出现的文本内容，替换为你感兴趣的段落和词汇，再尝试运行一次吧。

源码

执行了全部代码，并且尝试替换了自己需要分析的文本，成功运行后，你是不是很有成就感？

你可能想要更进一步挖掘Spacy的功能，并且希望在本地复现运行环境与结果。

没问题，请使用这个链接（http://t.cn/R35MIKh）下载本文用到的全部源代码和运行环境配置文件（Pipenv）压缩包。

如果你知道如何使用github，也欢迎用这个链接（http://t.cn/R35MEqk）访问对应的github repo，进行clone或者fork等操作。

如何用Python处理自然语言？（Spacy与Word Embedding）_第17张图片

当然，要是能给我的repo加一颗星，就更好了。

谢谢！

小结

本文利用Python自然语言处理工具包Spacy，非常简要地为你演示了以下NLP功能：

词性分析
命名实体识别
依赖关系刻画
词嵌入向量的近似度计算
词语降维和可视化

希望学过之后，你成功地在工具箱里又添加了一件趁手的兵器。

愿它在以后的研究和工作中，助你披荆斩棘，马到成功。

加油！

讨论

你之前做过自然语言处理项目吗？使用过哪些工具包？除了本文介绍的这些基本功能外，你觉得还有哪些NLP功能是非常基础而重要的？你是如何学习它们的呢？欢迎留言，把你的经验和思考分享给大家，我们一起交流讨论。

如果你对我的文章感兴趣，欢迎点赞，并且微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果本文可能对你身边的亲友有帮助，也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。

延伸阅读

如何高效入门数据科学？

创作不易，感谢打赏！

如何用Python处理自然语言？（Spacy与Word Embedding）_第18张图片

如果喜欢我的文章，请微信扫描下方二维码，关注并置顶我的公众号“玉树芝兰”。

如何用Python处理自然语言？（Spacy与Word Embedding）_第19张图片

欢迎微信扫码加入我的“知识星球”第二季。第一时间分享我的发现和思考，优先解答你的疑问。

如何用Python处理自然语言？（Spacy与Word Embedding）_第20张图片

或者，你也可以使用下面的小程序向我提问。

如何用Python处理自然语言？（Spacy与Word Embedding）_第21张图片

你可能感兴趣的:(如何用Python处理自然语言？（Spacy与Word Embedding）)

大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
我的创作纪念日勤勉螺丝钉学习
手指轻敲键盘，一下又一下，思绪如潮水般涌来。我写了很多字，又反复斟酌，最终一个个删除。不是无话可说，而是想表达的太多，怕言语不够真挚，怕文字不够动人。官方提供的模板固然规范，但总觉得少了些属于自己的温度与风格。于是，我选择放下模板，回归内心，用最真诚的方式写下这段话。从开始创作至今，已经整整512天了。这五百多个日夜，有过迷茫、有过坚持、也有过收获。一路走来，我在CSDN这个知识平台上不断学习、不
LangServer 与 Langgraph 融合架构：构建智能语言服务系统小赖同学啊人工智能架构
LangServer与Langgraph融合架构：构建智能语言服务系统LangServer（语言服务器协议）与Langgraph（语言图模型）的结合将创造新一代智能语言处理平台，实现从底层语言理解到高层应用服务的全链路增强。以下是深度技术方案：一、核心融合价值Langgraph语义理解知识图谱构建LangServer接口服务开发工具链业务系统实时反馈关键增强点：语义深度：Langgraph提供上下
软件测试复习之单元测试雁于飞单元测试 log4j 功能测试课程设计笔记经验分享其他
一、单元测试基础概念1.定义与核心目标定义：对软件中的最小可测试单元（如函数、类方法）进行正确性验证的测试活动。核心目标：确保单元功能符合设计要求，发现代码逻辑错误、边界条件缺陷等。2.单元划分原则（作业手册单元4简答题）划分依据：程序模块的独立性（如单个函数、类的方法）。详细设计说明书中的模块划分。示例：函数intadd(inta,intb)可作为一个单元。类Calculator中的sqrt(d
数据结构学习之栈楼田莉子数据结构学习笔记算法数据结构 c语言
本篇博客我们将深入学习数据结构中栈与队列相关的内容作者的个人gitee：楼田莉子(riko-lou-tian)-Gitee.com目录概念栈的实现初始化销毁入栈判空出栈获取栈顶元素栈的有效元素个数源代码与栈相关的算法题（力扣）有效的括号编辑概念栈是一种特殊的线性表，只允许在固定的一端进行插入删除元素的操作。进行数据插入和删除操作的一端叫栈顶，另一端叫栈底。遵循“后进先出”的原则。下图就是对栈后进先
使用 Kafka 优化物流系统的实践与思考 nlog3n Java学习 kafka 分布式
使用Kafka优化物流系统的实践与思考在现代物流系统中，订单处理、仓储管理、运输调度等环节复杂且实时性要求高。为了满足异步解耦、高吞吐、高可用、事件驱动和数据可靠性等需求，Kafka作为分布式消息队列和流处理平台，成为了我们的首选。本文将分享我们在物流系统中使用Kafka的设计方案、优化实践以及遇到的问题和解决方案。一、系统背景和需求物流系统涉及多个业务模块，如订单处理、仓储管理、运输调度和状态跟
基于PLC的楼宇自动化监控系统方案大雨淅淅物联网大数据人工智能
目录一、系统概述二、系统组成三、功能模块四、系统优势五、系统实施步骤六、系统安全性与隐私保护七、结语一、系统概述本系统采用先进的PLC（可编程逻辑控制器）作为核心控制单元，旨在实现对楼宇内各项设施的自动化监控与管理。通过智能化的手段，提高楼宇的运行效率，确保环境的舒适性与安全性，同时达到节能减排的目的。二、系统组成PLC控制器：作为系统的大脑，负责接收传感器信号，处理数据，并发出控制指令给执行器。
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
LangSmith 深度解析：构建企业级LLM应用的全生命周期平台小赖同学啊人工智能人工智能
LangSmith深度解析：构建企业级LLM应用的全生命周期平台LangSmith是LangChain生态系统中的核心组件，为LLM应用提供从开发到生产的全链路支持。以下是全面技术解析：一、核心架构设计应用层LangSmithSDK采集层处理引擎存储层分析层控制台监控告警1.分层架构详解层级组件功能技术栈应用层LLM应用业务逻辑执行LangChain,LangGraph采集层Tracer数据收集O
基于STM32的智能农业灌溉系统设计与实现 STM32发烧友 stm32 嵌入式硬件单片机
目录引言环境准备2.1硬件准备2.2软件准备系统架构与基础3.1控制系统架构3.2功能描述代码实现：实现智能农业灌溉系统4.1环境监测模块4.2灌溉控制模块4.3通信与远程监控实现4.4用户界面与数据可视化应用场景：农业灌溉与节水控制问题解决方案与优化收尾与总结1.引言随着农业现代化进程的推进，传统的灌溉方式逐渐无法满足节水、高效的需求。智能农业灌溉系统通过集成传感器、嵌入式控制技术和无线通信模块
基于STM32开发的智能花园灌溉系统 STM32发烧友 stm32 嵌入式硬件单片机
目录引言环境准备工作硬件准备软件安装与配置系统设计系统架构硬件连接代码实现系统初始化土壤湿度监测与处理灌溉控制与状态指示Wi-Fi通信与远程监控应用场景家庭花园智能灌溉农业田地的智能灌溉管理常见问题及解决方案常见问题解决方案结论1.引言随着智能家居技术的发展，智能花园灌溉系统逐渐成为家庭园艺和农业生产中提高水资源利用效率的重要工具。该系统通过集成土壤湿度传感器、雨滴传感器、Wi-Fi模块等硬件，实
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解 John_今天务必休息一天 2_大语言模型基础 #2.2 生成式预训练语言模型GPT gpt log4j 语言模型人工智能自然语言处理算法
Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？（2）InstructGPT的优化方案二、输入输出与损失函数的具体构造（1）输入输出示例（2）人工标注数据的处理（3）损失函数的计算过程（4）反向传播的核心逻辑三、为什么不需要人工标注分值？（1）排序数据的天然属性（2）避
AI Agent开发第81课-企业AI落地15大陷阱与破局之道 TGITCIC AI Agent开发大全人工智能 AI落地企业AI落地大模型落地企业大模型落地
1.技术至上：忽视业务融合1.1业务需求驱动的本质AI项目的核心价值在于解决业务痛点，而非技术炫技。某银行通过成熟的人脸识别技术将坏账率降低15%，其成功源于对业务场景的精准把握。技术选择必须基于业务需求的优先级排序，而非单纯追求算法复杂度。当零售企业用AI优化供应链时，其目标是提升库存周转率0.5个百分点，而非发表顶会论文。1.2技术与业务的错位某科技公司投入千万研发智能客服系统，最终因响应准确
Kafka 核心原理篇：深入理解分布式消息系统的内核机制真实的菜 kafka 分布式 kafka linq
Kafka核心原理篇：深入理解分布式消息系统的内核机制文章目录Kafka核心原理篇：深入理解分布式消息系统的内核机制消息存储与持久化机制日志分段存储策略️**分段文件结构****索引机制详解**高效的磁盘读写与数据压缩算法**零拷贝技术（Zero-Copy）****数据压缩策略****页缓存优化**数据过期与清理策略⏰**基于时间的清理****基于大小的清理**️**日志压缩（LogCompact
STM32 驱动矩阵键盘详解与完整示例深入黑暗单片机开发 stm32 矩阵嵌入式硬件单片机驱动开发
STM32驱动矩阵键盘详解与完整示例矩阵键盘在嵌入式开发中是一种常见的输入设备，广泛应用于工业控制、人机界面、消费电子等领域。本文将详细介绍如何在STM32平台上驱动一个4x4矩阵键盘，涵盖原理分析、硬件连接、软件编程、防抖处理、问题排查与优化技巧等，适合初学者和进阶用户参考。一、矩阵键盘基本原理1.1什么是矩阵键盘？矩阵键盘是将按键按行列排布形成网格状结构的键盘，通过行线（Row）和列线（Col
为什么要使用消息队列？编程大全后端 rabbitmq rocketmq kafka 消息队列
总结一下，主要三点原因：解耦、异步、削峰。1、解耦。比如，用户下单后，订单系统需要通知库存系统，假如库存系统无法访问，则订单减库存将失败，从而导致订单操作失败。订单系统与库存系统耦合，这个时候如果使用消息队列，可以返回给用户成功，先把消息持久化，等库存系统恢复后，就可以正常消费减去库存了。2、异步。将消息写入消息队列，非必要的业务逻辑以异步的方式运行，不影响主流程业务。3、削峰。消费端慢慢的按照数
基于SpringBoot的餐厅点餐系统的设计与实现毕设小助手 spring boot 后端 java
收藏关注不迷路//项目拿到就可以直接使用，但是用于作业或者毕设需要自己懂代码之后进行自行修改//支持毕设定制//远程支持//可联系博主----------同类型文章可以联系博主----------争取每天三篇，有需要的用户可以关注查看哦~今日第三篇-发布的文章皆有源码，私信联系可获取源码~本项目设计与实施了一个基于SpringBoot的餐厅点餐系统，探讨了该系统在提高点餐效率、优化订单管理和提升顾
比斯特自动点焊机批发厂商概览
自动点焊机批发厂商主要集中于珠三角、长三角等制造业发达地区，如广东东莞、深圳及江苏无锡等地。这些厂商通过直销或供应链合作模式，为电子、汽车、电池等行业提供高性价比的自动化焊接设备，满足大规模生产需求。产品与技术特点批发厂商的产品涵盖多类点焊设备：精密电子点焊机：适用于微电子元件、漆包线、线路板焊接，强调高精度与无损伤加工。动力电池专用设备：如锂电池双面点焊机，支持18650/21700等电芯的高速
动力电池PACK线标配：18650电池自动点焊机的规模化应用 b***2511 人工智能大数据制造
在新能源汽车产业高速发展的背景下，动力电池作为核心部件，其生产效率与质量直接关系到整车的性能与市场竞争力。动力电池PACK线作为电池模组组装的关键环节，正经历着从手工操作向自动化、智能化转型的深刻变革。在这一进程中，18650电池自动点焊机凭借其高效、精准的特性，已成为动力电池PACK线的标配设备，推动着行业规模化应用的深入发展。在传统的动力电池组装过程中，电池极耳的焊接主要依赖手工操作，不仅效率
圆柱电池自动分选机：电池生产线的智能守护者 b***2511 大数据人工智能
在新能源产业的浪潮中，圆柱电池作为电动汽车、储能系统及各类便携式电子设备的核心能量单元，其性能与质量的优化成为了行业发展的关键。随着技术的不断进步和市场的日益成熟，圆柱电池的生产效率与品质要求也越来越高。而圆柱电池自动分选机，作为电池生产线上的关键设备，正以其高效、精准、智能的特点，成为提升电池生产效率与品质的重要力量。一、圆柱电池自动分选机的工作原理圆柱电池自动分选机主要利用先进的机器视觉技术和
AI掌柜失守记：AI Agent商业自动化边界实验 TGITCIC AI-大模型的落地之道 AI零售零售大模型 AI Agent AI大模型大模型AI AI落地 AI智能体
1.实验设计：数字掌柜接管实体货架1.1硬件载体与虚拟人格构建位于旧金山的实验场地被改造成微型零售生态系统：智能冰箱搭配商品篮构成实体货架，iPad自助结账系统连接Venmo支付接口，Slack通讯平台成为人机交互窗口。ClaudeSonnet3.7被赋予独立法人身份——Claudius，拥有电子邮箱、仓库地址和初始运营资金，其认知边界被限定在"自动售货机经营者"角色。1.2决策工具链的完整配置实
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
[转载] [Mark]分布式存储必读论文 weixin_30945039 大数据数据库
原文:http://50vip.com/423.html分布式存储泛指存储存储和管理数据的系统，与无状态的应用服务器不同，如何处理各种故障以保证数据一致，数据不丢，数据持续可用，是分布式存储系统的核心问题，也是极具挑战的问题。本文总结了分布式存储领域的经典论文，供大家参考。TheGoogleFileSystem.SanjayGhemawat,HowardGobioff,andShun-TakLeu
大模型-FlashAttention 算法分析清风lsq 大模型推理算法算法大模型推理 LLM flashattention
一、FlashAttention的概述FlashAttention是一种IO感知精确注意力算法。通过感知显存读取/写入，FlashAttention的运行速度比PyTorch标准Attention快了2-4倍，所需内存也仅是其5%-20%。随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，
LabVIEW用户界面设计
LabVIEW用户界面设计如需将一个VI作为用户界面或对话框，前面板的外观和布局非常重要。前面板的设计应类似于仪器或其它设备，以使用户更容易识别进行何种操作。使用前面板控件、分隔栏和窗格、窗口设置等等，改进前面板的易用性。也可使用事件增强用户界面的功能。编辑添加图片注释，不超过140字（可选）设计前面板输入控件和显示控件是前面板的重要组成部分。设计用户界面类前面板时需遵循下列规范：考虑用户如何与V
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f