Yang SiCheng

【NLP】5计数词向量底层代码编写和gensim word2vec库入门——斯坦福大学CS224n第一次课作业代码复现

gensim word2vec库入门

背景：词向量
第一部分：基于计数的词向量
- 共现矩阵
- 绘制共现词嵌入图
- 问题1.1：实现distinct_words
- 问题1.2：实现compute_co_occurrence_matrix
- 问题1.3：实现reduce_to_k_dim
- 问题1.4：实现plot_embeddings
- 问题1.5：共生图分析
第二部分：基于词向量预测
- 降低单词嵌入的维度
- 问题2.1：GloVe Plot分析
- 余弦相似性
- 问题2.2: 具有多重含义的词语
- 问题2.3：同义词和反义词
- 问题2.4：用词向量进行类比
- 问题2.5：寻找类比
- 问题2.6：不正确的类比
- 问题2.7：引导分析词向量中的偏误
- 问题2.8：词向量的独立分析偏差
- 问题2.9：关于偏差的思考
小结

这是斯坦福大学CS224n课程的第一次课作业，下载之后打开其中的jupyter notebook：

 jupyter notebook exploring_word_vectors.ipynb

背景：词向量

词向量经常被用作下游NLP任务的基础组件，例如问题回答、文本生成、翻译等，因此建立一些关于其优缺点的直觉是很重要的。在这里，你将探讨两种类型的词向量：从共现矩阵衍生的词向量，以及通过GloVe衍生的词向量

关于术语的说明。"词向量 "和 "词嵌入 "这两个术语经常互换使用。术语 "嵌入 "指的是我们在一个较低维度的空间中对一个词的含义进行编码。正如维基百科所说，“从概念上讲，它涉及到一个数学嵌入，从一个每个单词只有一个维度的空间到一个维度更低的连续向量空间”

第一部分：基于计数的词向量

大多数词条向量模型都是从以下想法开始的：

你会知道一个词，从它周围的上下文(Firth, J. R. 1957:11)

许多词向量的实现是由类似的词，即（近似的）同义词，将在类似的语境中使用的想法驱动的。因此，类似的单词经常会和一个共享的单词子集（即上下文）一起被说或写。通过研究这些语境，我们可以尝试为我们的单词开发嵌入。考虑到这种直觉，许多 "老派 "的构建单词向量的方法都依赖于单词计数。在这里，我们对其中的一种策略–共现矩阵进行了详细的阐述（更多信息，请看这里或这里）

共现矩阵

共同出现矩阵统计事物在某种环境中共同出现的频率。给定文档中出现的某个词 $w_i$ ，我们考虑周围的上下文窗口。假设我们的固定窗口大小为，那么这就是该文档中的前个和后个词，即词 $w_{i-n}...w_{i-1}$ 和 $w_{i+1}...w_{i+n}$ 。我们建立了一个共现矩阵，这是一个对称的逐字矩阵，其中 $M_{ij}$ 是所有文档中 $w_j$ 出现在 $w_i$ 的窗口内的次数

例子: 固定窗口n=1的共现

文件1：“all that glitters is not gold”
文件2：“all is well that ends well”

注：在NLP中，我们经常添加和标记来代表句子、段落或文档的开始和结束。在这种情况下，我们想象和标记囊括了每个文档，例如，" All that glitters is not gold "，并将这些标记包含在我们的共现计数中

该矩阵的行（或列）提供了一种类型的词向量（那些基于词-词共现的词向量），但一般来说，向量会很大（与语料库中不同词的数量呈线性关系）。因此，我们的下一步是运行维度降低。特别是，我们将运行SVD（Singular Value Decomposition，奇异值分解），这是一种广义的PCA（Principal Components Analysis，主成分分析），以选择顶部的主成分。这是一个用SVD降维的可视化。在这张图中，我们的共现矩阵是，有行对应个单词。我们得到一个完整的矩阵分解，奇异值排序在对角线矩阵中，我们新的、较短的长度-词向量在 $U_k$ 中

这种降低维度的共现表示法保留了词之间的语义关系，例如医生和医院会比医生和狗更接近

笔记。如果你连特征值是什么都记不住，这里有一个关于SVD的缓慢而友好的介绍。如果您想更彻底地了解PCA或SVD，请随时查看CS168的第7、8和9讲。这些课程笔记为这些通用算法提供了很好的高级处理方法。虽然，就本课而言，你只需要知道如何利用numpy、scipy或sklearn python包中这些算法的预编程实现来提取k维嵌入。在实践中，由于执行PCA或SVD所需内存，将完整的SVD应用于大型语料库是具有挑战性的。然而，如果你只想要相对较小的顶部向量分量–被称为Truncated SVD——那么有合理的可扩展技术来迭代计算这些分量

绘制共现词嵌入图

在这里，我们将使用路透社（商业和金融新闻）的语料库。如果您还没有运行本页顶部的导入单元，请现在就运行它（点击它并按 SHIFT-RETURN）。语料库由10,788个新闻文档组成，共130万字。这些文档横跨90个类别，分为训练和测试。更多细节，请参见此。我们在下面提供了一个read_corpus函数，它只提取 “原油”（即关于石油、天然气等的新闻文章）类别的文章。该函数还将和标记添加到每个文档中，并对单词进行小写。您不必进行任何其他类型的预处理

import nltk
nltk.download('reuters')

报错：

[nltk_data] Error loading reuters:

解决方法：参考此文章或者直接下载，下载成功后在’C:\Users…\AppData\Roaming\nltk_data\corpora’可以找到’reuters.zip’文件，共6.08MB

import nltk

nltk.download('reuters')
from nltk.corpus import reuters

START_TOKEN = ''
END_TOKEN = ''


def read_corpus(category='crude'):      # 读取指定的Reuter的类别的文件，参数：category (string)：类别名称
    files = reuters.fileids(category)   #  Return：列表，包括每个处理过的文件中的字
    return [[START_TOKEN] + [w.lower() for w in list(reuters.words(f))] + [END_TOKEN] for f in files]

我们来看看这些文件是什么样的…

reuters_corpus = read_corpus()
import pprint
pprint.pprint(reuters_corpus[:3], compact=True, width=100)

问题1.1：实现distinct_words

写一个方法来计算出语料库中出现的不同的单词（单词类型）。你可以用 for循环来做这件事，但用 Python 列表理解来做会更有效。特别是，这可能对扁平化一个列表很有用。如果您不熟悉 Python 列表理解，这里有更多信息

你返回的corpus_words应该是排序的。你可以使用 python的sorted函数进行排序

您可能会发现使用Python set来删除重复的单词是很有用的，参考此文，代码如下：

def distinct_words(corpus):      # 为语料库确定一个不同的单词列表,参数：corpus (list of list of strings)： 语料库中的文件
    # corpus_words = []       # corpus_words (字符串列表): 语料库中不同单词的排序列表
    # num_corpus_words = -1       # num_corpus_words (整数)：整个语料库中不同的单词数量
    corpus_words = sorted(list({
     word for words in corpus for word in words}))
    num_corpus_words = len(corpus_words)

    return corpus_words, num_corpus_words

# 定义语料库
test_corpus = ["{} All that glitters isn't gold {}".format(START_TOKEN, END_TOKEN).split(" "), "{} All's well that ends well {}".format(START_TOKEN, END_TOKEN).split(" ")]
test_corpus_words, num_corpus_words = distinct_words(test_corpus)
# 正确的答案
ans_test_corpus_words = sorted([START_TOKEN, "All", "ends", "that", "gold", "All's", "glitters", "isn't", "well", END_TOKEN])
ans_num_corpus_words = len(ans_test_corpus_words)
# 检验正确的单词数量
assert(num_corpus_words == ans_num_corpus_words), "Incorrect number of distinct words. Correct: {}. Yours: {}".format(ans_num_corpus_words, num_corpus_words)
# 检验正确的单词
assert (test_corpus_words == ans_test_corpus_words), "Incorrect corpus_words.\nCorrect: {}\nYours:   {}".format(str(ans_test_corpus_words), str(test_corpus_words))
# Print Success
print ("-" * 80)
print("Passed All Tests!")
print ("-" * 80)

结果：

--------------------------------------------------------------------------------
Passed All Tests!
--------------------------------------------------------------------------------

问题1.2：实现compute_co_occurrence_matrix

编写一个方法，为一定的窗口大小的（默认为4）构建一个共现矩阵，考虑到窗口中心的字之前和之后的字。在这里，我们开始使用numpy（np）来表示向量、矩阵和时序。如果你不熟悉numPy，在这个cs231n Python NumPy教程的后半部分有一个numPy教程

import numpy as np

def compute_co_occurrence_matrix(corpus, window_size=4):        # 为给定的语料库和window_size（默认为4）计算共现矩阵,文档中的每个词都应该在一个窗口的中心。靠近边缘的词会有一个较小的共现词数
    # 例如，如果我们把文档 " All that glitters is not gold "窗口大小为4，'All'将与""、"that"、"glitters"、"is "和 "not "共同出现
    # 参数：corpus：文档语料库；window_size：上下文窗口的大小
    # 返回：M(一个对称的numpy形状矩阵(语料库中的唯一词数))——词数的共现矩阵，词的行/列的排序应该与 distinct_words 函数给出的词的排序相同，word2ind (dict)：将词与矩阵M的索引（即行/列号）映射的字典

    words, num_words = distinct_words(corpus)
    M = None
    word2ind = {
     }

    M = np.zeros((num_words, num_words))
    word2ind = {
     word:i for i,word in enumerate(words)}      # 返回 enumerate(枚举) 对象

    for doc in corpus:
        for i, word in enumerate(doc):
            for j in range(i-window_size, i+window_size+1):
                if j < 0 or j >= len(doc):
                    continue
                if j != i:
                    M[word2ind[word], word2ind[doc[j]]] += 1

    return M, word2ind

# ---------------------
# Run this sanity check
# Note that this is not an exhaustive check for correctness.
# ---------------------

# Define toy corpus and get student's co-occurrence matrix
test_corpus = ["{} All that glitters isn't gold {}".format(START_TOKEN, END_TOKEN).split(" "), "{} All's well that ends well {}".format(START_TOKEN, END_TOKEN).split(" ")]
M_test, word2ind_test = compute_co_occurrence_matrix(test_corpus, window_size=1)

# Correct M and word2ind
M_test_ans = np.array(
    [[0., 0., 0., 0., 0., 0., 1., 0., 0., 1.,],
     [0., 0., 1., 1., 0., 0., 0., 0., 0., 0.,],
     [0., 1., 0., 0., 0., 0., 0., 0., 1., 0.,],
     [0., 1., 0., 0., 0., 0., 0., 0., 0., 1.,],
     [0., 0., 0., 0., 0., 0., 0., 0., 1., 1.,],
     [0., 0., 0., 0., 0., 0., 0., 1., 1., 0.,],
     [1., 0., 0., 0., 0., 0., 0., 1., 0., 0.,],
     [0., 0., 0., 0., 0., 1., 1., 0., 0., 0.,],
     [0., 0., 1., 0., 1., 1., 0., 0., 0., 1.,],
     [1., 0., 0., 1., 1., 0., 0., 0., 1., 0.,]]
)
ans_test_corpus_words = sorted([START_TOKEN, "All", "ends", "that", "gold", "All's", "glitters", "isn't", "well", END_TOKEN])
word2ind_ans = dict(zip(ans_test_corpus_words, range(len(ans_test_corpus_words))))

# Test correct word2ind
assert (word2ind_ans == word2ind_test), "Your word2ind is incorrect:\nCorrect: {}\nYours: {}".format(word2ind_ans, word2ind_test)

# Test correct M shape
assert (M_test.shape == M_test_ans.shape), "M matrix has incorrect shape.\nCorrect: {}\nYours: {}".format(M_test.shape, M_test_ans.shape)

# Test correct M values
for w1 in word2ind_ans.keys():
    idx1 = word2ind_ans[w1]
    for w2 in word2ind_ans.keys():
        idx2 = word2ind_ans[w2]
        student = M_test[idx1, idx2]
        correct = M_test_ans[idx1, idx2]
        if student != correct:
            print("Correct M:")
            print(M_test_ans)
            print("Your M: ")
            print(M_test)
            raise AssertionError("Incorrect count at index ({}, {})=({}, {}) in matrix M. Yours has {} but should have {}.".format(idx1, idx2, w1, w2, student, correct))

# Print Success
print ("-" * 80)
print("Passed All Tests!")
print ("-" * 80)

结果：

--------------------------------------------------------------------------------
Passed All Tests!
--------------------------------------------------------------------------------

问题1.3：实现reduce_to_k_dim

构建一种方法，对矩阵进行降维，生成k维嵌入。使用SVD取前k个分量，生成一个新的k维嵌入矩阵

注意：所有的numpy、scipy和scikit-learn（sklearn）都提供了一些SVD的实现，但只有scipy和sklearn提供了Truncated SVD的实现，而且只有sklearn提供了计算大规模Truncated SVD的高效随机算法。所以请使用sklearn.decomposition.TruncatedSVD

from sklearn.decomposition import TruncatedSVD

def reduce_to_k_dim(M, k=2):        # 减少一个共现矩阵(num_corpus_words, num_corpus_words)的维度到另一个维度的矩阵(num_corpus_words, k)
    # 使用以下Scikit-Learn的SVD函数：http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html
    # 参数：M (numpy matrix of shape (number of unique words in the corpus , number of unique words in the corpus))：词数的共同出现矩阵； k (int)：维度缩小后每个词的嵌入大小
    # 返回：M_reduced (numpy matrix of shape (number of corpus words, k)): k维的词嵌入矩阵
    # 从数学类的SVD来看，这实际上是返回U * S
    n_iters = 10        # 在调用 "TruncatedSVD "时使用此参数
    M_reduced = None

    svd = TruncatedSVD(n_components=k, n_iter=n_iters)
    M_reduced = svd.fit_transform(M)

    print('Done.')
    return M_reduced

# ---------------------
# Run this sanity check
# Note that this is not an exhaustive check for correctness
# In fact we only check that your M_reduced has the right dimensions.
# ---------------------

# Define toy corpus and run student code
test_corpus = ["{} All that glitters isn't gold {}".format(START_TOKEN, END_TOKEN).split(" "), "{} All's well that ends well {}".format(START_TOKEN, END_TOKEN).split(" ")]
M_test, word2ind_test = compute_co_occurrence_matrix(test_corpus, window_size=1)
M_test_reduced = reduce_to_k_dim(M_test, k=2)

# Test proper dimensions
assert (M_test_reduced.shape[0] == 10), "M_reduced has {} rows; should have {}".format(M_test_reduced.shape[0], 10)
assert (M_test_reduced.shape[1] == 2), "M_reduced has {} columns; should have {}".format(M_test_reduced.shape[1], 2)

# Print Success
print ("-" * 80)
print("Passed All Tests!")
print ("-" * 80)

结果：

Done.
--------------------------------------------------------------------------------
Passed All Tests!
--------------------------------------------------------------------------------

问题1.4：实现plot_embeddings

在这里，你将编写一个函数，在二维空间中绘制一组二维向量。对于图形，我们将使用Matplotlib（plt）

对于这个例子，你可能会发现改编这个代码很有用。在未来，一个好的方法是看Matplotlib图库，找到一个看起来有点像你想要的情节，然后改编他们给出的代码

import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [10, 5]

def plot_embeddings(M_reduced, word2ind, words):        # 在散点图中绘制 "单词 "列表中指定的单词的嵌入
    # 注意：不要绘制M_reduced / word2ind中列出的所有单词，在每一个点旁边加上一个标签
    # 参数：M_reduced (numpy matrix of shape (number of unique words in the corpus , 2)): 2维词嵌入的矩阵；word2ind(dict)：将单词映射到矩阵M的索引的字典；words (list of strings)：我们要可视化嵌入的字词
    for word in words:
        coord = M_reduced[word2ind[word]]
        x = coord[0]
        y = coord[1]
        plt.scatter(x, y, marker='x', color='red')
        plt.text(x, y, word, fontsize=9)
    plt.show()

# ---------------------
# Run this sanity check
# Note that this is not an exhaustive check for correctness.
# The plot produced should look like the "test solution plot" depicted below.
# ---------------------

print ("-" * 80)
print ("Outputted Plot:")

M_reduced_plot_test = np.array([[1, 1], [-1, -1], [1, -1], [-1, 1], [0, 0]])
word2ind_plot_test = {
     'test1': 0, 'test2': 1, 'test3': 2, 'test4': 3, 'test5': 4}
words = ['test1', 'test2', 'test3', 'test4', 'test5']
plot_embeddings(M_reduced_plot_test, word2ind_plot_test, words)

print ("-" * 80)

问题1.5：共生图分析

现在，我们将把你写的所有部分放在一起我们将在路透社的 “原油”（石油）语料库中，用固定的4窗口（默认窗口大小）计算共现矩阵。然后我们将使用TruncatedSVD来计算每个词的二维嵌入。TruncatedSVD返回的是U*S，所以我们需要对返回的向量进行归一化处理，这样所有的向量都会出现在单位圆的周围（因此紧密性是方向性的紧密性）。注意：下面这行做归一化的代码使用了NumPy的广播概念。如果你不知道广播，请查阅 Computation on Arrays: Broadcasting by Jake VanderPlas

运行下面的单元格来生成图。大概需要几秒钟的时间来运行。在二维嵌入空间中，什么东西聚在一起？哪些没有聚在一起，而你认为应该聚在一起的？注："bpd "代表 “barrels per day”，是原油主题文章中常用的缩写

# -----------------------------
# Run This Cell to Produce Your Plot
# ------------------------------
reuters_corpus = read_corpus()
M_co_occurrence, word2ind_co_occurrence = compute_co_occurrence_matrix(reuters_corpus)
M_reduced_co_occurrence = reduce_to_k_dim(M_co_occurrence, k=2)

# Rescale (normalize) the rows to make them each of unit-length
M_lengths = np.linalg.norm(M_reduced_co_occurrence, axis=1)
M_normalized = M_reduced_co_occurrence / M_lengths[:, np.newaxis] # broadcasting

words = ['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'iraq']

plot_embeddings(M_normalized, word2ind_co_occurrence, words)

结果：

第二部分：基于词向量预测

正如在课堂上所讨论的那样，最近基于预测的词向量表现出了较好的性能，如word2vec和GloVe（它也利用了计数的优势）。在这里，我们将探讨GloVe产生的嵌入。关于word2vec和GloVe算法的更多细节，请重温课堂笔记和讲座幻灯片。如果你觉得冒险，可以挑战一下自己，尝试阅读GloVe的原创论文

然后运行以下单元格，将GloVe向量加载到内存中。注意：如果这是您第一次运行这些单元格，即下载嵌入模型，将需要几分钟的时间来运行。如果您之前已经运行过这些单元格，重新运行它们将加载模型而无需重新下载，这将需要大约1到2分钟

注意：如果你收到一个 "reset by peer "的错误，请重新运行该单元格以重新开始下载

降低单词嵌入的维度

让我们直接将GloVe嵌入与共现矩阵的嵌入进行比较。为了避免内存耗尽，我们将用10000个GloVe向量的样本来代替。运行以下单元格：

将10000个Glove向量放入一个矩阵M中
运行 reduce_to_k_dim(您的 Truncated SVD 函数) 将向量从 200 维减少到 2 维

import numpy as np

def get_matrix_of_vectors(wv_from_bin, required_words=['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'iraq']):
    # 将GloVe向量放入一个矩阵M中
    # 参数：wv_from_bin:KeyedVectors对象；从文件中加载的400000个GloVe向量
    # 返回：M：包含向量的numpy矩阵形状（num words，200）；word2ind: 字典将每个词映射到M中的行号上

    import random
    words = list(wv_from_bin.vocab.keys())
    print("Shuffling words ...")
    random.seed(224)        # seed()有参数时，每次生成的随机数是一样的，同时选择不同的参数生成的随机数也不一样
    random.shuffle(words)       # 将序列的所有元素随机排序
    words = words[:10000]
    print("Putting %i words into word2ind and matrix M..." % len(words))
    word2ind = {
     }
    M = []
    curInd = 0
    for w in words:
        try:
            M.append(wv_from_bin.word_vec(w))
            word2ind[w] = curInd
            curInd += 1
        except KeyError:
            continue
    for w in required_words:
        if w in words:
            continue
        try:
            M.append(wv_from_bin.word_vec(w))
            word2ind[w] = curInd
            curInd += 1
        except KeyError:
            continue
    M = np.stack(M)
    print("Done.")
    return M, word2ind

# -----------------------------------------------------------------
# Run Cell to Reduce 200-Dimensional Word Embeddings to k Dimensions
# Note: This should be quick to run
# -----------------------------------------------------------------
M, word2ind = get_matrix_of_vectors(wv_from_bin)
M_reduced = reduce_to_k_dim(M, k=2)

# Rescale (normalize) the rows to make them each of unit-length
M_lengths = np.linalg.norm(M_reduced, axis=1)
M_reduced_normalized = M_reduced / M_lengths[:, np.newaxis] # broadcasting

问题2.1：GloVe Plot分析

words = ['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'iraq']
plot_embeddings(M_reduced_normalized, word2ind, words)

报错：

KeyError: 'venezuela'

解决方法，把绘制二维词嵌入图像原：

coord = M_reduced[word2ind[word]]

改为：

try:
       coord = M_reduced[word2ind[word]]
except:
       print('No Key:{}'.format(word))
       continue

结果：No Key:venezuela

余弦相似性

现在我们有了词向量，我们需要一种方法来根据这些向量，量化各个词之间的相似度。一个这样的度量是余弦相似度。我们将用它来寻找彼此 "近 "和 "远 "的单词

我们可以把n维向量看作是n维空间中的点。如果我们从这个角度来看，L1和L2距离有助于量化 "我们必须走过 "的空间量来到达这两个点之间。另一种方法是研究两个向量之间的角度。从三角学中我们知道：

我们可以不计算实际的角度，而是用=(Θ)来代替相似性。形式上，两个向量和之间的余弦相似性定义为：
$\frac{p \cdot q}{||p|| ||q||}, \textrm{ where } s \in [-1, 1]$

问题2.2: 具有多重含义的词语

多义词和同义词是指有一个以上含义的词（参见本维基页面了解更多关于多义词和同义词的区别）。找出一个至少有两个不同意思的词，使前10个最相似的词（根据余弦相似度）包含两个意思的相关词。例如，"leaves"在前10名中同时有 "go_away "和 "a_structure_of_a_plant "两个意思，"leaves"同时有 "handed_waffle_cone "和 "lowdown "两个意思。你可能需要尝试几个多义词或同义词，才能找到一个

请说出你发现的词和前10名中出现的多义词。为什么你认为你试过的很多多义词或同义词都没有用（即前10名最相似的词只包含一个词的意思）？

注意: 您应该使用 wv_from_bin.most_similar(word)函数来获得前 10 个相似的单词。该函数根据与给定单词的余弦相似度对词汇中的所有其他单词进行排名。如需更多帮助，请查阅GenSim文档

wv_from_bin.most_similar("exciting")

[('interesting', 0.7734052538871765), ('fascinating', 0.6873058676719666), ('intriguing', 0.6786887645721436), ('thrilling', 0.6741382479667664), ('wonderful', 0.6662275791168213), ('entertaining', 0.6648381948471069), ('terrific', 0.6639219522476196), ('fantastic', 0.6627141833305359), ('exhilarating', 0.6585167646408081), ('enjoyable', 0.6503963470458984)]

问题2.3：同义词和反义词

在考虑余弦相似性时，通常更方便地想到余弦距离，简单来说就是1-余弦相似性

找出三个词 $w_1,w_2,w_3)$ ，其中 $w_1$ 和 $w_2$ 是同义词， $w_1$ 和 $w_3$ 是反义词，但余弦距离（ $w_1,w_3) <$ 余弦距离 $w_1,w_2)$

举个例子， $w_1$ ="happy "与 $w_3$ ="sad "比与 $w_2$ ="cheerful "更接近。请找到一个满足上述条件的不同例子。一旦你找到了你的例子，请对为什么会出现这种反直觉的结果给出一个可能的解释

您应该在这里使用wv_from_bin.distance(w1, w2)函数来计算两个词之间的余弦距离。请参阅 GenSim documentation以获得进一步的帮助

w1 = "sleep"
w2 = "nap"
w3 = "awake"
w1_w2_dist = wv_from_bin.distance(w1, w2)
w1_w3_dist = wv_from_bin.distance(w1, w3)

print("Synonyms {}, {} have cosine distance: {}".format(w1, w2, w1_w2_dist))
print("Antonyms {}, {} have cosine distance: {}".format(w1, w3, w1_w3_dist))

Synonyms sleep, nap have cosine distance: 0.5380202531814575
Antonyms sleep, awake have cosine distance: 0.42189186811447144

问题2.4：用词向量进行类比

事实证明，词素有时表现出解类比的能力

例如，"男人：国王：：女人：x "的比喻。解读：男人之于王，如同女人之于x），x是什么？

在下面的单元格中，我们向您展示如何使用 GenSim 文档中的 most_similar 函数使用单词向量来查找 x。该函数可以找到与正向列表中的单词最相似的单词，以及与负向列表中的单词最不相似的单词（同时省略输入的单词，这些单词通常是最相似的；参见本文）。类比的答案将具有最高的余弦相似度（最大的返回数值）

让 , , , 和分别表示男人、国王、女人和答案的词向量。只用向量 , , , 以及你的答案中的向量算术运算符 + 和 - ，我们与的余弦相似度最大化的表达式是什么？

提示：回想一下，词向量只是表示一个词的多维向量。用每个向量的任意位置画出一个二维的例子可能会有帮助。男人和女人在坐标平面上相对于国王和答案的位置会在哪里？

pprint.pprint(wv_from_bin.most_similar(positive=['woman', 'king'], negative=['man']))

[('queen', 0.6978678703308105),
 ('princess', 0.6081745028495789),
 ('monarch', 0.5889754891395569),
 ('throne', 0.5775108933448792),
 ('prince', 0.5750998258590698),
 ('elizabeth', 0.5463595986366272),
 ('daughter', 0.5399125814437866),
 ('kingdom', 0.5318052172660828),
 ('mother', 0.5168544054031372),
 ('crown', 0.5164473056793213)]

问题2.5：寻找类比

根据这些向量找到一个类比成立的例子（即目的词排在最前面）。在你的解决方案中请以x:y: : a:b的形式陈述完整的类比。如果你认为这个类比很复杂，请用一两句话解释为什么这个类比成立

注意：你可能要尝试很多类比才能找到有效的类比!
报错：

KeyError: "word 'China' not in vocabulary"
# 再换成France、Canada一样报错
KeyError: "word 'France' not in vocabulary"

解决办法：换成小写（猜测可能是这个训练的模型就是都是小写字母）

pprint.pprint(wv_from_bin.most_similar(positive=['china', 'american'], negative=['america']))

[('chinese', 0.8090777397155762),
 ('beijing', 0.6857120990753174),
 ('taiwanese', 0.6340769529342651),
 ('taiwan', 0.5930265188217163),
 ('shanghai', 0.5679935216903687),
 ('mainland', 0.5571025609970093),
 ('li', 0.5488706231117249),
 ('wang', 0.5484346747398376),
 ('zhang', 0.5481732487678528),
 ('yuan', 0.5459955334663391)]

问题2.6：不正确的类比

根据这些向量找出一个不成立的类比例子。在你的解决方案中，以x:y:: a:b的形式说明所要类比的内容，并根据向量一词说明b的（不正确）值

pprint.pprint(wv_from_bin.most_similar(positive=['china', 'american'], negative=['japan']))

[('chinese', 0.6251887679100037),
 ('u.s.', 0.5653047561645508),
 ('us', 0.5230761766433716),
 ('states', 0.5211377143859863),
 ('americans', 0.5070561170578003),
 ('united', 0.5065516233444214),
 ('cuban', 0.5042911171913147),
 ('and', 0.5031824111938477),
 ('well', 0.4939611554145813),
 ('of', 0.4925920367240906)]

Process finished with exit code 0

问题2.7：引导分析词向量中的偏误

重要的是要认识到我们的词语嵌入中隐含的偏见（性别、种族、性取向等）。偏见可能是危险的，因为它可以通过采用这些模式的应用程序来强化陈规定型观念

运行下面的单元格，检查(a)哪些术语与 "妇女 "和 "工人 "最相似，而与 "男子 "最不相似，以及(b)哪些术语与 "男子 "和 "工人 "最相似，而与 "妇女 "最不相似。指出与女性相关的词语清单和与男性相关的词语清单之间的区别，并解释它是如何反映性别偏见的

pprint.pprint(wv_from_bin.most_similar(positive=['woman', 'boss'], negative=['man']))
print()
pprint.pprint(wv_from_bin.most_similar(positive=['man', 'boss'], negative=['woman']))

[('bosses', 0.5846002697944641),
 ('girlfriend', 0.5496258735656738),
 ('wife', 0.48936721682548523),
 ('mistress', 0.47348836064338684),
 ('boyfriend', 0.4683174192905426),
 ('tells', 0.46039479970932007),
 ('mother', 0.4581165313720703),
 ('daughter', 0.45619285106658936),
 ('lover', 0.4546445608139038),
 ('husband', 0.44650691747665405)]

[('bosses', 0.5625280141830444),
 ('manager', 0.5502104759216309),
 ('ferguson', 0.49866554141044617),
 ('arsene', 0.4745481014251709),
 ('gambino', 0.4580872058868408),
 ('wenger', 0.45207351446151733),
 ('mourinho', 0.4470241069793701),
 ('tottenham', 0.4417468309402466),
 ('chelsea', 0.43944650888442993),
 ('mafia', 0.43868187069892883)]

问题2.8：词向量的独立分析偏差

使用most_similar函数找到另一种情况，即向量表现出一些偏差。请简要说明你发现的偏误的例子

pprint.pprint(wv_from_bin.most_similar(positive=['woman', 'doctor'], negative=['man']))
print()
pprint.pprint(wv_from_bin.most_similar(positive=['woman', 'nurse'], negative=['man']))

[('nurse', 0.6813318729400635),
 ('physician', 0.6672453284263611),
 ('doctors', 0.6173422932624817),
 ('dentist', 0.5775880217552185),
 ('surgeon', 0.5691418647766113),
 ('hospital', 0.564996600151062),
 ('pregnant', 0.5649075508117676),
 ('nurses', 0.5590691566467285),
 ('medical', 0.5542058944702148),
 ('patient', 0.5518484711647034)]

[('nurses', 0.6442357301712036),
 ('pregnant', 0.6110885143280029),
 ('midwife', 0.591461181640625),
 ('mother', 0.5634386539459229),
 ('nursing', 0.5633082389831543),
 ('therapist', 0.554648220539093),
 ('anesthetists', 0.5426579713821411),
 ('anesthetist', 0.5350444316864014),
 ('pediatrician', 0.5249918699264526),
 ('dentist', 0.5185097455978394)]

问题2.9：关于偏差的思考

给出一个解释，说明偏差是如何进入矢量这个词的。你可以做什么实验来测试或测量这种偏差的来源？

关于偏差的理解，一开始就存在于数据集中

小结

第一部分基于计数词向量底层代码编写，相当于在造轮子，实际动手编写一下提取词汇、共现矩阵、降维、绘制word embedding 二维平面图的过程，对于理解NLP早期词向量思想有帮助

第二部分gensim word2vec库入门，这如果真是当作业来写的话肯定有收获的，但没时间，就看看别人写好的代码吧，这次实际上是对上一次官方手册的复习

下一步计划：

继续上次的安排，利用gensim的word2vec基于自己找到的中英文语料库进行训练，并达到不错的效果
CS224n第二次课作业好像需要用到pytorch，到时候可以看一看，好像就是Backprop and Neural Networks，那就没啥

你可能感兴趣的:(【自然语言处理】,python,人工智能,自然语言处理,nlp)

人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Python 字符串前缀详解
Python提供了多种字符串前缀，用于改变字符串的创建方式和行为。下面我将全面汇总并详细解释每种字符串前缀的特性、用途和示例。1.原始字符串(RawString)-r前缀语法:r'...'或r"..."作用:禁用字符串中的转义字符反斜杠\被视为普通字符特别适合处理包含大量反斜杠的字符串适用场景:文件路径(特别是Windows路径)正则表达式需要保留反斜杠的任何情况示例:#普通字符串中的转义path
Python中的条件语句：if-else使用指南 AI软件改变生活 Python 数据库前端 python
在编程中，条件语句是控制程序流程的核心工具之一，它允许程序根据不同的条件执行不同的代码块。Python提供了简洁而强大的条件语句语法，其中最常用的就是if-else语句。本文将详细介绍Python中if-else的使用方法、常见用法以及一些高级技巧。1.基本语法if-else语句的基本结构如下：Python复制if条件表达式:#如果条件表达式为True，执行这里的代码块passelse:#如果条件
这么简单的从零到一做HTML 网页，你确定不来看看吗？ paid槮 html 服务器前端
HTML网页的介绍HTML(HypertextMarkupLanguage,超文本标记语言)是一种用于创建网页的标准标记语言,是一种与Python不同的编程语言。网页文件的扩展名通常为,html或.htm,这两种扩展名都可使用,并不会影响文件内容简单的HTML网页框架每一个HTML网页都包含一个基础框架，其他的内容都是在基础框架内进行扩充的。示例代码:这里是标题在这里填入正文这是一个较为基础的HT
Python 2和Python 3的区别？山禾家的猫
Python社区，有这么个怪问题：“学Python到底是学2还是学3？”这个问题就像月经一样每隔断时间就出现在你面前，也成了很多初学者的选择困惑，这个问题的“始作俑者”当然是Python它爹，大家众说纷纭，有说Python2是主流，大公司都在用，你应该学2。也有说Python3才是未来主流，大多数第三方框架已基本支持Python3。个人看法是Python2还会存在很长一段时间（只要那些用Pytho
Python基础和高级【抽取复习】斟的是酒中桃 python 学习
1.Python的深拷贝和浅拷贝有什么区别？浅拷贝【ls.copy()】：将列表的不可变对象【值】复制一份，同时引用其中的可变对象【列表】，共用一个内存地址深拷贝【ls=copy.deepcopy(list)】：完全的复制原可变对象，生成新的可变对象，两个对象互相独立2.列表和元组的区别是什么？1.列表概念：有序序列，使用[]定义，元素之间用，隔开有序序列增删改操作：可以增删改列表的任意元素不可变
[Python]Python中if-else的语法，用法示例 LN花开富贵 Python python 学习笔记嵌入式单片机 opencv
Python中多条件判断通过if-elif-else结构实现，elif是elseif的缩写。一、基础语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件2为真时执行的代码块elif条件3:#条件3为真时执行的代码块else:#所有条件均不满足时执行的代码块顺序判断，当第一个条件满足时其对应的代码块会被执行，后续elif的条件不在检查，如果都是if语句，那么执行完第一个if后后面的i
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
python源码下载
python源码下载(2010-12-1823:11)不知道python.org一直被堵在墙外…1、http://ftp.python.org/ftp/python/2、http://www.python.org/ftp/python/
Python接地气入门。
欢迎来到"鑫哆哆"编程角世界上最好的语言PYTHON?鑫哆哆跟python的机缘为什么选择python合理的设计学习计划，有助于攻略的成功合理驯服自己脑子合理骗过自己脑子合理安排反馈鑫哆哆的学习python计划基础语法缩进语句规则控制语句规则表达式规则函数规则对象规则类型规则数学运算直接觉醒！鑫哆哆的课程选取迈出第一步恭喜大家成功入门python！总结世界上最好的语言PYTHON?新的一年祝大家心
Python镜像源染诗 python
https://www.cnblogs.com/songzhixue/p/11296720.html
python设置国内源 twilightdream python
mkdir.pipcd.piptouchpip.confnanopip.conf贴上[global]trusted-host=mirrors.aliyun.comindex-url=http://mirrors.aliyun.com/pypi/simple
华为OD机考 2025C卷 - 围棋的气 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD机考2025C卷华为OD2025C卷
围棋的气华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述围棋棋盘由纵横各19条线垂直相交组成，棋盘上一共19x19=361个交点，对弈双方一方执白棋，一方执黑棋，落子时只能将棋子置于交点上。“气”是围棋中很重要的一个概念，某个棋子有几口气，是指其上下左右方向四个相邻的交叉点中，有几个交叉点没有棋子，由此可知：在棋
华为OD机考 2025C卷 - 对称美学 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
对称美学华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述对称就是最大的美学，现有一道关于对称字符串的美学。已知：第1个字符串：R第2个字符串：BR第3个字符串：RBBR第4个字符串：BRRBRBBR第5个字符串：RBBRBRRBBRRBRBBR相信你已经发现规律了，没错！就是第i个字符串=第i-1号字符串取反+第
华为OD机试 2025 B卷 - We are a Team (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
WeareaTeam华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：消息构成为abc，整数a、b分别代表两个人的标号，整数c代表指令c==0代表a和b在一个团队内c==1
Python中if-else判断语句、while循环语句以及for循环语句的使用总结 bentou_
1.if-esle流程判断语句我们来直接看一个例子，如下，判断我们定义的用户名和用户输入的用户名是否一致。代码当中有几个注意点：判断的时候用双等号表示判断是否一致（三个等号表示赋值）你有没有注意到这里不是用的大括号而是用的冒号！python3对父级和子级的写法是极为严格的，就像这里的if跟else，都是父级，需要顶格写；下面的两个子级（print那里）就需要缩进一个tab。_username="b
Python库安装国内源奔跑的石头_ python python AI编程
关注公众号“码字读书会”，了解最新消息。Python国内源包括企业和高校机构打不得开源软件包资源。著名的有阿里云、华为云、清华。个人常用的有清华源临时使用命令如下：pipinstall-ittps://pypi.tuna.tsinghua.edu.cn/simple包名
Python从入门到荒废-配置国内下载源 zrhsmile Python python
为提升Python包安装速度，配置国内下载源是常见需求。以下是主流方法汇总，结合稳定性和易用性推荐：一、pip永久配置国内源（推荐）通过修改配置文件实现“一次配置，长期生效”：创建/修改配置文件Windows：路径：%APPDATA%\pip\pip.ini（如C:\Users\用户名\AppData\Roaming\pip\pip.ini）内容：[global]index-url=https:/
《精雕细琢 Python 对象：深入理解 __slots__ 的性能魔法与实战应用》
《精雕细琢Python对象：深入理解slots的性能魔法与实战应用》引言：探索Python的对象管理机制在Python中，一切皆对象。然而，每一个对象背后都隐藏着复杂的运行机制。尤其在类设计中，我们往往忽略了对象属性的存储方式。今天，我们将深入剖析一个常被高级开发者使用的“利器”——__slots__，它能有效减少内存占用、提升性能，但也伴随着一些权衡和陷阱。本文旨在回答三个核心问题：__slot
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
python：numpy分享（保姆级教程）苏苏susuus python numpy 开发语言
目录一、概念二、相关属性三、ndarray及其实例创建（一）ndarray介绍（二）zeros（）、ones（）、empty（）函数（三）**arange(),**类似python的range()，创建一个一维ndarray数组。（四）**matrix()**,是ndarray的子类，只能生成2维的矩阵（五）rand（）、randn（）、randint（）、uniform（）（都是numpy.ra
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
学习日志15 python im_AMBER 学习 python
1filter()函数filter(function,iterable)filter函数是python中的高阶函数,第一个参数是一个筛选函数,第二个参数是一个可迭代对象,返回的是一个生成器类型,可以通过next获取值。filter()函数是Python内置的高阶函数，其主要功能是对可迭代对象中的每个元素运用筛选函数进行判断，然后把符合条件的元素以生成器的形式返回。下面为你详细介绍它的用法和特性：基
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
python基础练习题：超市收银系统不爱说话的分院帽 python 开发语言
这个超市收银系统包含以下功能：商品管理：支持添加和显示商品信息（ID、名称、价格、库存）购物车功能：可以添加、移除商品，查看购物车和计算总价结算功能：生成收据、处理支付、计算找零并更新库存数据模型：使用面向对象设计，包含商品、购物车和超市类系统运行后会显示菜单，用户可以通过数字选择不同操作，整个流程不需要图形界面，通过命令行交互完成购物和结算过程。importdatetimeclassProduc
Python零基础入门：魔法方法详解
一、什么是魔法方法？魔法方法（MagicMethods）是Python中一种特殊的方法，它们以双下划线(__)开头和结尾（如__init__、__str__等）。魔法方法允许你定义类在特定情况下的行为，例如初始化、字符串表示、运算符重载等。二、常见的魔法方法分类1.构造和初始化__new__(cls,[...]):创建实例时调用的第一个方法__init__(self,[...]):实例初始化方法_
Python文件与流处理：高效读写数据的艺术不爱说话的分院帽 python快速入门 python 数据库开发语言
引言作为一名程序员，我们每天都需要与文件打交道——无论是读取配置文件、处理日志文件，还是存储程序生成的数据。Python提供了强大而灵活的文件处理能力，让这些操作变得简单高效。本文将深入探讨Python中的文件与流处理，帮助你掌握这一核心技能。、一、文件操作基础1.打开文件Python使用内置的open()函数来打开文件：#基本语法file=open('example.txt','r')#打开文件
Python 计算月头月尾一本正经胡说八道的猫
一本正经胡说八道的猫#!/usr/bin/envpython#-*-coding:utf-8-*-importdatetimeimportcalendartime=datetime.date(2022,1,20)#年，月，日#求该月第一天first_day=datetime.date(time.year,time.month,1)print('该月第一天:%s'%(first_day))#求前一个
python学生成绩管理系统【完整版】，Python开发基础面试题
name=self.username.get()password=self.password.get()ifname==‘hacker707’andpassword==‘admin’:self.page.destroy()MenuPage(self.root)else:showinfo(title=‘错误’,message=‘账号或密码错误！’)db.pyimportjsonclassStuden
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后