不会代码的小王

cs224n Assignment 1：exploring_word_vectors

CS224n：Natural Language Processing with DeepLearning

Assignment I

Word Vectors：Introduction，SVD and Word2Vec

Abstract
Preparation
Package
Part 1：Count-Based Word Vectors
- Co-Occurrence
- SVD
- Plotting Co-Occurrence Word Embedding
- - Question 1.1：Implement `distinct_words`
  - Question 1.2：I mplement `compute_co_occurrence_matrix`
  - Question 1.3：Implement `reduce_to_k_dim`
  - Question 1.4：Implement `plot_embeddings`
  - Question 1.5：Co-Occurrence Plot Analysis
Part 2：Prediction-Based Word Vectors
- Reducing dimensionality of Word Embeddings
- - Question 2.1: GloVe Plot Analysis
  - - Cosine Similarity
  - Question 2.2: Words with Multiple Meanings
  - Question 2.3: Synonyms & Antonyms
  - Question 2.4: Analogies with Word Vectors
  - Question 2.5: Finding Analogies
  - Question 2.6: Incorrect Analogy
  - Question 2.7: Guided Analysis of Bias in Word Vectors
  - Question 2.8: Independent Analysis of Bias in Word Vectors
小记

Abstract

Assignment 1 对 Note 1 的内容进行了复现：

Part I：代码实现 Count-Based 统计方法获得原始 word vectors，而后运用 SVD Decomposition 获得裁剪后的word embedding
Part II：运用 gensim.downloader 下载预训练数据，并熟悉一些 KeyedVectors对象对word vector的操作。

Preparation

原 jupyter notebook 源文件、本节PPT、本节notes
- 链接：百度网盘资源，提取码：zdfn
python 环境中请导入 gensim，确保存在 reuters 数据集（压缩包）
gensim-data，详情看Part 2

Package

# All Import Statements Defined Here
# Note: Do not add to this list.
# ----------------

import sys
assert sys.version_info[0]==3
assert sys.version_info[1] >= 5

from gensim.models import KeyedVectors
from gensim.test.utils import datapath
import pprint

import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = [10, 5]

import nltk
nltk.download('reuters')
from nltk.corpus import reuters

import numpy as np
import random
import scipy as sp

from sklearn.decomposition import TruncatedSVD
from sklearn.decomposition import PCA

START_TOKEN = ''
END_TOKEN = ''

np.random.seed(0)
random.seed(0)
# ----------------

笔者对上述引入的包并不是完全熟悉，所以上网Google了相关资料，下面是对它们的简单介绍：

Gensim：一款开源的第三方Python工具包，用于从原始的非结构化的文本中无监督地学习到文本隐层的主题向量表达。它支持 TF-IDF、LSA、LDA 和 Word2Vec 在内的多重主题模型算法
NLTK：全程 natural language toolkit，是一套基于 python 的自然语言处理工具集。nltk包里包含了很多的 corpus，比如 reuters（本作业会用到）、莎士比亚作品、古腾堡语料库等等。
Reuters（路透社）：关于 news 的语料库，分为“训练”和“测试”两组，便于进行模型训练和测试，命名即为 ‘train/number’ 和 ‘test/number’

Part 1：Count-Based Word Vectors

Most word vector models start from the following idea:

· You shall know a word by the company it keeps

Many word vector implementations are driven by the idea that similar words, i.e., (near) synonyms, will be used in similar contexts. As a result, similar words will often be spoken or written along with a shared subset of words, i.e., contexts. By examining these contexts, we can try to develop embeddings for our words. With this intuition in mind, many “old school” approaches to constructing word vectors relied on word counts. Here we elaborate upon one of those strategies, co-occurrence matrices (for more information, see here or here).

Co-Occurrence

下面对共生矩阵(co-occurrence matrix)进行简单的介绍。

对于 document 中的单词 $w_i$ ，我们给定参数 $window\_size \ \ \ n$ ，找出 $w_i$ 对应的窗口内的 context，范围为 $w_{i-n},...,w_{i-1}$ & $w_{i+1},...,w_{i+n}$ 。针对所有的 document，以及 document 中的所有 $w_i$ ，我们将计算单词 $w_j$ 出现在 $w_i$ 的 context 中的次数，对应共生矩阵 $M$ 的 $M_{ij}$ 。

Example: Co-Occurrence with Fixed Window of n=1:

Document 1: “all that glitters is not gold”

Document 2: “all is well that ends well”

		all	that	glitters	is	not	gold	well	ends
	0	2	0	0	0	0	0	0	0	0
all	2	0	1	0	1	0	0	0	0	0
that	0	1	0	1	0	0	0	1	1	0
glitters	0	0	1	0	1	0	0	0	0	0
is	0	1	0	1	0	1	0	1	0	0
not	0	0	0	0	1	0	1	0	0	0
gold	0	0	0	0	0	1	0	0	0	1
well	0	0	1	0	1	0	0	0	1	1
ends	0	0	1	0	0	0	0	1	0	0
	0	0	0	0	0	0	1	1	0	0

不难看出，共生矩阵是对称矩阵，且在这里，每个 document 的起始都加上了 START & END标识符。之后将动手实现共生矩阵。

SVD

SVD（Singular Value Decomposition，奇异值分解），是机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解还可以用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。

在这里，我们实现了共生矩阵之后，会对其进行降维处理，运用的便是SVD Decomposition，下面的链接整理了SVD分解的相关数学知识。

SVD分解

Plotting Co-Occurrence Word Embedding

开始代码操作~

我们先从 Reuters 中读取文本语料，这个语料库包括了 10,788 条新闻 documents 共 1.3million 个单词。在本节中，我们只用到其中的一些category（所有的documents分了90类）。如上对共生矩阵举例的时候列出的矩阵所示，我们会在 document 起始加上 START & END 标识符，并且把所有的单词转换为小写形式。

注意：documents 不是我们经常翻译为的文档，在这里，它表示一则新闻或者是一句话。

def read_corpus(category="crude"):
    files = reuters.fileids(category)
    
    return [[START_TOKEN] + [w.lower() for w in list(reuters.words(f))] + [END_TOKEN] for f in files]

读取的 category 主题为 “crude”.
如果对 files 进行循环，实际输出的是迭代器；调用 list(reuters.words()) 方法进一步获得具体的 document（列出部分打印结果）.

return 语句中实际上分为了三部分，第一部分加上 START 标识符，第二部分将所有单词变成小写，第三部分则是加上 END 标识符，而最后的 for f in files 语句可以看成最外层的循环，同时也可以注意到，这三个部分都加了 [].

Question 1.1：Implement `distinct_words`

对读取到的语料进行去重并排序，得到最终的 corpus 单词列表。In particular, this may be useful to flatten a list of lists. If you’re not familiar with Python list comprehensions in general, here’s more information.（列表解析）

Params：
- corpus：list of list of strings，关于 document 的列表，而 document 是关于 word 的列表
Return：
- corpus_words：去重并排序的 words list（1-dimension）
- num_corpus_words：number of words

def distinct_words(corpus):
    corpus_words = []
    num_corpus_words = -1
    
    # ------------------
    # Write your implementation here.
    # 将二维列表平铺
    corpus_words = [word for w in corpus for word in w]
    
    # 去重，利用set集合
    corpus_words = list(set(corpus_words))
    
    # 排序
    corpus_words.sort()
    num_corpus_words = len(corpus_words)

    # ------------------

    return corpus_words, num_corpus_words

如何把二维（多维）列表进行平铺，可以着重注意一下

测试代码：

# ---------------------
# Run this sanity check
# Note that this not an exhaustive check for correctness.
# ---------------------

# Define toy corpus
test_corpus = ["{} All that glitters isn't gold {}".format(START_TOKEN, END_TOKEN).split(" "), "{} All's well that ends well {}".format(START_TOKEN, END_TOKEN).split(" ")]
test_corpus_words, num_corpus_words = distinct_words(test_corpus)

# Correct answers
ans_test_corpus_words = sorted([START_TOKEN, "All", "ends", "that", "gold", "All's", "glitters", "isn't", "well", END_TOKEN])
ans_num_corpus_words = len(ans_test_corpus_words)

# Test correct number of words
assert(num_corpus_words == ans_num_corpus_words), "Incorrect number of distinct words. Correct: {}. Yours: {}".format(ans_num_corpus_words, num_corpus_words)

# Test correct words
assert (test_corpus_words == ans_test_corpus_words), "Incorrect corpus_words.\nCorrect: {}\nYours:   {}".format(str(ans_test_corpus_words), str(test_corpus_words))

# Print Success
print ("-" * 80)
print("Passed All Tests!")
print ("-" * 80)

Question 1.2：I mplement `compute_co_occurrence_matrix`

创建共现矩阵。

Params：
- corpus：list of list of strings，未经处理的原始语料
- window_size：窗口大小
Return：
- M：共现矩阵
- word2ind：dictionary，用处理好（去重并排序）的 words list 创建而成，key 是 word， value 是其在列表中的索引

def compute_co_occurrence_matrix(corpus, window_size=4):
    words, num_words = distinct_words(corpus)
    M = None
    word2ind = {}
    
    # ------------------
    # Write your implementation here.
    M = np.zeros((num_words,num_words))
    
    # 生成索引字典
    word2ind = {c:i for i,c in enumerate(words)}
    
    # 对corpus中所有的记录进行循环
    for document in corpus:
        total = len(document)
        #print(document)
        
        #对单条document中的所有单词进行循环
        for i in range(len(document)):
            curr_word = document[i]
            
            # 找出窗口内的所有单词
            start_index = (i-window_size) if (i-window_size>0) else 0
            end_index = (i+window_size) if (i+window_size<=total) else total
            window_words = document[start_index:i] + document[i+1:end_index+1]

            # 在共生矩阵内+1
            # 这里给自己挖了个坑，共生矩阵关于对角对称，所以第一行代码执行完后，自以为是的保持对称，于是重复加了一遍 1，然而第二行代码并不需要
            for w in window_words:
                M[word2ind[curr_word]][word2ind[w]] += 1
                #M[word2ind[w]][word2ind[curr_word]] += 1   
 
    # ------------------
    
    return M, word2ind

测试代码：

# ---------------------
# Run this sanity check
# Note that this is not an exhaustive check for correctness.
# ---------------------

# Define toy corpus and get student's co-occurrence matrix
test_corpus = ["{} All that glitters isn't gold {}".format(START_TOKEN, END_TOKEN).split(" "), "{} All's well that ends well {}".format(START_TOKEN, END_TOKEN).split(" ")]
M_test, word2ind_test = compute_co_occurrence_matrix(test_corpus, window_size=1)

# Correct M and word2ind
M_test_ans = np.array( 
    [[0., 0., 0., 0., 0., 0., 1., 0., 0., 1.,],
     [0., 0., 1., 1., 0., 0., 0., 0., 0., 0.,],
     [0., 1., 0., 0., 0., 0., 0., 0., 1., 0.,],
     [0., 1., 0., 0., 0., 0., 0., 0., 0., 1.,],
     [0., 0., 0., 0., 0., 0., 0., 0., 1., 1.,],
     [0., 0., 0., 0., 0., 0., 0., 1., 1., 0.,],
     [1., 0., 0., 0., 0., 0., 0., 1., 0., 0.,],
     [0., 0., 0., 0., 0., 1., 1., 0., 0., 0.,],
     [0., 0., 1., 0., 1., 1., 0., 0., 0., 1.,],
     [1., 0., 0., 1., 1., 0., 0., 0., 1., 0.,]]
)
ans_test_corpus_words = sorted([START_TOKEN, "All", "ends", "that", "gold", "All's", "glitters", "isn't", "well", END_TOKEN])
word2ind_ans = dict(zip(ans_test_corpus_words, range(len(ans_test_corpus_words))))

# Test correct word2ind
assert (word2ind_ans == word2ind_test), "Your word2ind is incorrect:\nCorrect: {}\nYours: {}".format(word2ind_ans, word2ind_test)

# Test correct M shape
assert (M_test.shape == M_test_ans.shape), "M matrix has incorrect shape.\nCorrect: {}\nYours: {}".format(M_test.shape, M_test_ans.shape)

# Test correct M values
for w1 in word2ind_ans.keys():
    idx1 = word2ind_ans[w1]
    for w2 in word2ind_ans.keys():
        idx2 = word2ind_ans[w2]
        student = M_test[idx1, idx2]
        correct = M_test_ans[idx1, idx2]
        if student != correct:
            print("Correct M:")
            print(M_test_ans)
            print("Your M: ")
            print(M_test)
            raise AssertionError("Incorrect count at index ({}, {})=({}, {}) in matrix M. Yours has {} but should have {}.".format(idx1, idx2, w1, w2, student, correct))

# Print Success
print ("-" * 80)
print("Passed All Tests!")
print ("-" * 80)

Question 1.3：Implement `reduce_to_k_dim`

对获得的共生矩阵进行奇异值分解并提取特征。此部分代码参考资料为：sklearn.decomposition.TruncatedSVD

Params：
- M：共生矩阵，维度为 (number of unique words in the corpus , number of unique words in the corpus)
- k：维度裁剪后每个 word 的嵌入维数
Return：
- M_reduced：SVD Decomposition 并裁剪之后的单词向量矩阵，维度为 (number of corpus words, k)

def reduce_to_k_dim(M, k=2):
    n_iters = 10     # Use this parameter in your call to `TruncatedSVD`
    M_reduced = None
    print("Running Truncated SVD over %i words..." % (M.shape[0]))
    
    # ------------------
    # Write your implementation here.
    M_reduced = np.zeros((M.shape[0],k))
    svd = TruncatedSVD(n_components = k, n_iter = n_iters)
    M_reduced = svd.fit_transform(M)
    
    #M_reduced = svd.components_.T
    print(M_reduced)
    
    # ------------------

    print("Done.")
    return M_reduced

TruncatedSVD 方法的源形式为：

class sklearn.decomposition.TruncatedSVD(n_components=2, ***, algorithm=‘randomized’, n_iter=5, random_state=None, tol=0.0)

fit_transform(X[, y])

Fit model to X and perform dimensionality reduction on X.

测试代码：

# ---------------------
# Run this sanity check
# Note that this is not an exhaustive check for correctness 
# In fact we only check that your M_reduced has the right dimensions.
# ---------------------

# Define toy corpus and run student code
test_corpus = ["{} All that glitters isn't gold {}".format(START_TOKEN, END_TOKEN).split(" "), "{} All's well that ends well {}".format(START_TOKEN, END_TOKEN).split(" ")]
M_test, word2ind_test = compute_co_occurrence_matrix(test_corpus, window_size=1)
M_test_reduced = reduce_to_k_dim(M_test, k=2)

# Test proper dimensions
assert (M_test_reduced.shape[0] == 10), "M_reduced has {} rows; should have {}".format(M_test_reduced.shape[0], 10)
assert (M_test_reduced.shape[1] == 2), "M_reduced has {} columns; should have {}".format(M_test_reduced.shape[1], 2)

# Print Success
print ("-" * 80)
print("Passed All Tests!")
print ("-" * 80)

Question 1.4：Implement `plot_embeddings`

Here you will write a function to plot a set of 2D vectors in 2D space.

可以参考代码 code，其实质为散点图绘制。对于 python 更多的绘图代码，可以参考 the Matplotlib gallery

Params
- M_reduced：降维后的单词嵌入矩阵
- word2ind：words 映射的 dictionary
- words：需要嵌入的单词 list

def plot_embeddings(M_reduced, word2ind, words):
    # ------------------
    # Write your implementation here.
    for w in words:
        x = M_reduced[word2ind[w]][0]
        y = M_reduced[word2ind[w]][1]
        
        plt.scatter(x,y, marker='x', color='red')
        plt.text(x, y, w, fontsize=9)
    
    plt.show()
    # ------------------

Result：

Question 1.5：Co-Occurrence Plot Analysis

我们将对上面所有实现了的方法进行检验。

TruncatedSVD returns U*S, so we need to normalize the returned vectors, so that all the vectors will appear around the unit circle (therefore closeness is directional closeness).

# -----------------------------
# Run This Cell to Produce Your Plot
# ------------------------------
reuters_corpus = read_corpus()
M_co_occurrence, word2ind_co_occurrence = compute_co_occurrence_matrix(reuters_corpus)
M_reduced_co_occurrence = reduce_to_k_dim(M_co_occurrence, k=2)

# Rescale (normalize) the rows to make them each of unit-length
M_lengths = np.linalg.norm(M_reduced_co_occurrence, axis=1)
M_normalized = M_reduced_co_occurrence / M_lengths[:, np.newaxis] # broadcasting

words = ['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'iraq']

plot_embeddings(M_normalized, word2ind_co_occurrence, words)

Result：

Part 2：Prediction-Based Word Vectors

Research datasets regularly disappear, change over time, become obsolete or come without a sane implementation to handle the data format reading and processing.

基于这个原因，Gensim 推出了自己的数据集存储，并致力于长期支持一个健全的标准化使用的接口 API、专注于用于非结构化文本处理（没有图像或音频）的数据集。而这个库，便是 gensim-data.

下面这个 Github 地址给出了这些数据集，并提供了 quick start。同时请注意，若小伙伴们在运行下面的代码出现 bug，并且是因为缺少 information.json 文件，可以将此 repository 中的 list.json 复制到错误提示中 gensim-data 的文件夹下，并更名为 information.json。

（切忌将代码复制过去自己创建文件，应该把该 repository 下载下来，将 list.json 文件复制过去再更名，否则会出现编码格式不对的问题。）

https://github.com/RaRe-Technologies/gensim-data

在本节的作业中，我们使用的是 Glove 预训练模型，同样还存在其他的模型，比如 Word2Vec 等等，具体可以看上面的 Github. OK，回归正题。

def load_embedding_model():
    """ Load GloVe Vectors
        Return:
            wv_from_bin: All 400000 embeddings, each lengh 200
    """
    import gensim.downloader as api
    
    wv_from_bin = api.load("glove-wiki-gigaword-200")
    print("Loaded vocab size %i" % len(wv_from_bin.vocab.keys()))
    
    return wv_from_bin

# -----------------------------------
# Run Cell to Load Word Vectors
# Note: This will take a couple minutes
# -----------------------------------
wv_from_bin = load_embedding_model()

日后我们还能利用 gensim.downloader 这个API下载我们想要的数据或模型。
api.load("glove-wiki-gigaword-200") 这行代码返回的是一个 KeyedVectors 对象
- 如果打开 glove-wiki-gigaword-200.txt 文件查看，实际上存储的就是 word-word vector，如果不利用 KeyedVectors 对象读取这个文件，则需要一行一行的手动读取。

如果是第一次运行上面的代码特别耗时，所以可以选择手动下载。

https://github.com/RaRe-Technologies/gensim-data/releases，在这个链接中可以查找想下载的模型，以 glove-wiki-gigaword-200 举例（第一页没找到，可以 next 到下一页）

然后找到 Example Code 下方的 Asset

下载前两项，后两项可自行选择，同时上面给出的百度网盘链接里也有。下载后解压缩到之前存放 information.json 的文件夹下，我的地址是 C:\Users\ACER\gensim-data.

PS：我重启了电脑再运行上面的代码，下载的好快，人傻了…

总之下好了就行。继续。

Reducing dimensionality of Word Embeddings

下载下来的词向量有 40,000个，词嵌入维度为 200，数量过多内存占用太大，并且运行起来也很耗时，所以这部分的代码会将 200 维度缩减到 2 维度，并且只取用其中的 10,000 个单词。将构建这 10,000 个单词的嵌入矩阵，也好与Part 1的 co-occurrence matrix 进行比较。

def get_matrix_of_vectors(wv_from_bin, required_vectors=['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'iraq']):
    import random
    
    words = list(wv_from_bin.vocab.keys())
    
    print("Shuffle words...")
    random.seed(224)
    random.shuffle(words)
    words = words[:10000]
    
    print("Putting %i words into word2ind and matrix M..." % len(words))
    word2ind = {}
    M = []
    curInd = 0
    
    for w in words:
        try:
            M.append(wv_from_bin.word_vec(w))
            word2ind[w] = curInd
            curInd += 1
        except KeyError:
            continue
    
    print("Putting the words in required_vectors but not in words to the M...")
    for w in required_vectors:
        if w in words:
            continue
        try:
            M.append(wv_from_bin.word_vec(w))
            word2ind[w] = curInd
            curInd += 1
        except KeyError:
            continue
    
    M = np.stack(M)
    print(M.shape)
    print("Done")
    
    return M,word2ind

代码首先将原始的单词序列打散重新排列，然后将其取出其中的 10,000 个，接着创建这 10,000 个单词的词向量矩阵，而后对于不在这 10,000 个单词序列中但却在方法参数 required_words 中的单词添加进矩阵，word2ind类似Part 1
如果不了解 np.stack() 方法可参考这篇博文：https://blog.csdn.net/qq_17550379/article/details/78934529，但在这里并没有理解调用 stack() 方法的意义…

Question 2.1: GloVe Plot Analysis

将 requires_words 中的单词在二维空间中表示出来，结果和利用co-occurrence得到的图像有区别。

words = ['barrels', 'bpd', 'ecuador', 'energy', 'industry', 'kuwait', 'oil', 'output', 'petroleum', 'iraq']
plot_embeddings(M_reduced_normalized, word2ind, words)

对于单词的集簇情况，除了位置有所改变，什么词和什么词集簇，什么词和什么词没有集簇，大体也和语料的不同有关

Cosine Similarity

Now that we have word vectors, we need a way to quantify the similarity between individual words, according to these vectors.

实际上为了度量基于词向量的单词之间的相似性，我们除了使用 Cosine similarity，还可以使用 L1 norm和 L2 norm。

计算式：
$\frac{p·q}{||p||||q||},\ \ \ \ \ \ where\ \ s\in{-1,1}$

Question 2.2: Words with Multiple Meanings

很多单词都不止一个意思，这部分可以找出通过余弦相似度来寻找多义词，并且可以列出它表示的最多的 $n$ 个意思。

result = wv_from_bin.most_similar('open')
pprint.pprint(result)

Result：

结果与我们五年想象的不一样有可能是因为这里只包含 $10, 000$ 个单词，不是corpus的全部

Question 2.3: Synonyms & Antonyms

当考虑到余弦相似度（Cosine similarity），也常常会考虑到余弦距离（Cosine distance）
$Cosine\ distance = 1-Cosine\ similarity$
这部分的任务是，找到三个词 $w_1,w_2和w_3$ ，其中 $w_1$ 和 $w_2$ 是同义词， $w_1$ 和 $w_3$ 是反义词，并且

$Cosine\ distance(w_1,w_2)>Cosine\ distance(w_1,w_3)\\ 即\ \ \ Cosine\ similarity(w_1,w_2)Cosine distance(w1,w2)>Cosine distance(w1,w3)即 Cosine similarity(w1,w2)<Cosine similarity(w1,w3)$

可以想想为什么出现这种情况？
也许是因为该语料单词出现在一起的频率不一样，有时候可以尝试一下其他的预训练数据包

w1 = 'hard'
w2 = 'solid'
w3 = 'soft'
    
w1_w2_dist = wv_from_bin.distance('w1','w2')
w1_w3_dist = wv_from_bin.distance('w1','w3')

print(w1_w2_dist)
print(w1_w3_dist)

Question 2.4: Analogies with Word Vectors

这部分如果上过吴恩达老师的Deep Learning课程的应该不难理解。计算 Cosine similarity 涉及两个单词，那么如果给出 ‘woman’ 和 ‘man’，那么针对于 ‘king’ ，哪个单词（即求 $x$ ）能使下列等式成立：
$m a n : k i n g : : w o m a n : x$
又一次用到 KeyedVectors 对象，并调用它的 most_similar()方法。

result = wv_from_bin.most_similar(positive=['woman','king'],negative=['man'],topn=10)
pprint.pprint(result)

参数里面的 10，表示找出最相近的是个单词
该方法找出的单词时和 positive list 最相似以及与 $n e g a t i v e$ list最不相近的单词，类比的答案将具有最大的余弦相似度。

Result：

Question 2.5: Finding Analogies

类似2.4，自己找一个。

pprint.pprint(wv_from_bin.most_similar(positive=['out','white'],negative=['in'],topn=4))

Question 2.6: Incorrect Analogy

找一个匹配不正确的。

pprint.pprint(wv_from_bin.most_similar(positive=['woman','go'],negative=['man'],topn=4))

这里不放结果了，自己多试一下，理解个中意思就行。

Question 2.7: Guided Analysis of Bias in Word Vectors

训练的词向量显然不是完美的，其中的一个需要重视的问题便是偏见的存在，比如性别、种族、性取向等等，如果我们忽视了它的存在，它会通过应用这些模型来强化刻板印象，特别危险。我们通过下面一段代码来看看它的存在;

pprint.pprint(wv_from_bin.most_similar(positive=['woman', 'worker'], negative=['man']))
print()
pprint.pprint(wv_from_bin.most_similar(positive=['man', 'worker'], negative=['woman']))

Result：

Question 2.8: Independent Analysis of Bias in Word Vectors

自己找出一个带有bias的例子：

pprint.pprint(wv_from_bin.most_similar(positive=['woman','doctor'],negative=['man']))
print()
pprint.pprint(wv_from_bin.most_similar(positive=['man','doctor'],negative=['woman']))

看看结果：

第一条，man:doctor::woman:? 出现了护士（nurse），而第二条反过来并没有出现，除了人称代词，都是各类医生

小记

NLTK—co-occurrence matrix
gensim.downloader
KeyedVectors

你可能感兴趣的:(NLP,CS2224n,python,人工智能,自然语言处理)

构建我们的Python代码库依赖图 openwin_top python编程示例系列二 python 开发语言
构建我们的Python代码库依赖图作者：GeorgeFarcasiu,NoahKim,JaconBrugh,JiahaoLi,HudsonRiverTrading引言与我们在高频交易的根基保持一致，HudsonRiverTrading（HRT）行动迅速。与任何工程指标一样，速度有其权衡。在过去的五年中，由于一种通常更重视“足够好”而非“完美”的工程文化，一个鼓励团队间代码共享的协作工作环境，以及一
python 重构 Python 代码隔壁小红馆 python cpython python面试 python cpython
将for循环转换为list/dictionary/set表达式我们在时经常遇到的一个情况是，创建一个值的集合。比如我们创建一个列表，然后迭代地用值填充它，这里我们想创建一个立方数字的列表。大多数语言的标准方法如下：cubes=[]foriinrange(20):cubes.append(i**3)在Python中，我们可以使用列表表达式，生成需要的数据。就可以将代码简化为一行，省去定义列表，然后再
python代码重构技巧_Python代码重构指南，老师Bryan Beecham完结 weixin_39916479 python代码重构技巧
本套课程由BryanBeecham，全球知名敏捷开发教练主讲的：Python代码重构指南。重构是软件改进的核心，它使软件拥有更好的结构和性能，也使代码更易于理解、修改和扩展。尽管重构并不是新事物，但是软件开发人员仍然会苦恼于如何正确地进行重构。随着敏捷运动的发展，DevOps之类的概念不断追求高质量和精心设计的代码，以实现更快的部署和反馈。不过，现有的很多关于重构的教程都基于Java语言，关于Py
python读取excel数字数据是object类型_Python使用反射实现Excel与对象之间的转换 weixin_39638859
Python使用反射实现Excel与对象之间的转换代码在最下方，伸手党直接滚动到最后场景需要从Excel中加载到内存中，转换为class对象执行操作环境Python3.8openpyxl==3.0.5前置知识反射(仅介绍这个帮助类用到的几个反射方法)setattr、getattrclassPerson():name=Nonedef__init__(self,name):self.name=name
python语言对代码的块结构不敏感_浅谈python（二）--python代码规范初夏之菡
对于每一门语言来说，都有自己的编码规则，编程时是不可以违背这些准则的，一旦不遵守这个准则，程序就会报错无法执行，本节将介绍下python的一些编码规则。1、代码缩进与冒号首先介绍下代码缩进有什么用处，代码缩进是指通过在一行代码的前输入若干空格或者制表符来表示行与行之间的层次关系，每一种编程语言一般都需要代码缩进进行规范程序代码的层次结构，让代码清晰易于解读。对于其它的语言来说，代码缩进作为一种良好
Python编码系列—Python代码重构：提升代码质量学步_技术 Python编码 python 重构开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
【python】函数重构划过手的泪滴t python 每日一练云计算运维 python 重构服务器开发语言每日一练运维
函数重构函数重构pycharm函数重构步骤函数重构练习函数重构函数重构是指对现有函数进行修改和优化的过程。重构的目的是改善代码的可读性、可维护性和灵活性，同时保持其功能不变。函数重构通常包括以下步骤：理解函数的功能和目的。了解函数的作用和期望结果，确定重构的目标。检查函数的代码质量。查看函数的代码是否清晰、简洁、可读，有无可改进之处。提取重复的代码。如果函数中有重复的代码块，可以将其提取为单独的函
Python入门实战：Python的代码重构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能大数据人工智能语言模型 AI LLM Java Python 架构设计
1.背景介绍Python是一种基于社区发展、易用性、生态系统完善、可扩展性强、性能卓越等特点的高级编程语言。作为一门解释型语言，它具有高效率、简洁语法、丰富的库函数、跨平台能力和多种开发范式等优点。但随着项目不断迭代更新，代码量逐渐增加，导致代码结构混乱、缺乏模块化设计、重复逻辑过多、命名不规范等问题。如何有效地组织、管理和维护代码、提升代码质量、更好地实现功能，是一个技术人的日常工作。如何进行代
python提取excel数据批量生成固定格式的word文件的问题鱼弦【HOT】技术热谈 excel word
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）使用Python从Excel中提取数据并生成固定格式的Word文档1.介绍本项目旨在介绍如何使用Python从Excel中提取数据并生成固定格式的Word文档
python 使用microsoft-Florence-2-base进行图片描述生成哦里哦里哦里给 AI 大语言模型实战 python microsoft 开发语言
目录一、Florence-2简介二、代码实践三、多语言模型一、Florence-2简介Florence-2是一个先进的视觉基础模型，采用基于提示（prompt）的方式，处理广泛的视觉和视觉-语言任务。Florence-2能够解析简单的文本提示，执行如图像描述、物体检测和分割等任务。该模型利用FLD-5B数据集，该数据集包含54亿个注释，涵盖1.26亿张图像，用于掌握多任务学习。模型的序列到序列架构
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
python openai 网络连接报错哦里哦里哦里给 AI 大语言模型实战 python ai
目录一、问题:网络连接报错二、解决办法一、问题:网络连接报错File"/opt/anaconda3/envs/openaitest/lib/python3.8/site-packages/openai/_base_client.py",line1024,in_requestraiseAPIConnectionError(request=request)fromerroropenai.APIConn
【人工智能】Model Context Protocol (MCP) 是一个开放协议，标准化了应用程序向大型语言模型（LLMs）提供上下文的方式本本本添哥 013 -AIGC 人工智能大模型人工智能语言模型 php
一、ModelContextProtocol(MCP)概述MCP，ModelContextProtocolMCP，是一个开放协议。MCP，标准化了应用程序向大型语言模型（LLMs）提供上下文的方式。‌MCP，旨在标准化应用程序如何为大型语言模型（LLM）提供上下文信息。MCP，提供了一个标准的接口，使得LLM可以无缝集成各种外部数据源和工具，从而扩展其能力和应用场景。二、MCP的定义和作用MCP定
Python--操作系统进行交互【OS库】 ~请叫我小祸害~ python 开发语言
在Python中，os是一个内置的标准库，用于与操作系统进行交互。它提供了许多函数和方法，用于执行与操作系统相关的任务，例如文件类操作和目录操作、进程管理、环境变量访问等。接下来我给大家列举一下比较常用的文件操作方法：代码示例⬇⬇⬇⬇⬇⬇⬇：1、os.getcwd():返回当前工作目录的路径。importos#返回当前工作目录current_dir=os.getcwd()print("当前工作目录
10 个极其有用的 Python 自动化脚本 python
在现代职场中，重复性和耗时的任务常常占据大量时间，影响工作效率。Python作为一种高效、易用的编程语言，提供了丰富的库和工具，能够帮助打工人自动化处理日常任务，提升工作效率。以下是十个必备的Python自动化脚本：一、文件批量重命名脚本在日常工作中，可能需要对大量文件进行重命名操作。手动操作既耗时又容易出错。使用Python脚本，可以实现文件的批量重命名，提高效率。importosdefbatc
python内存泄露 weixin_39810989 内存泄漏 python malloc
定位工具及使用1.tracemalloc可以通过创建快照的方式记录当前的内存占用情况。从而可以比较快照与快照之间的内存占用差异。可以获取内存块的回溯，定位到内存占用最多的文件和代码行。osgeo.cn/cpython/library/tracemalloc.html2.pympler可以创建快照（summaries）进行内存块占用对比frompympler.classtrackerimportCl
python selenium 点击按钮_Python Selenium等待用户单击按钮 Shu Wang python selenium 点击按钮
语境：>我的脚本使用seleniumwebdriver启动到网站>用户填写网站上的一些东西>用户将点击一个按钮,弹出确认()dialogbox询问用户“你想提交数据吗”我的本意：我的脚本会等到用户点击按钮.一旦检测到用户点击了该按钮,我的脚本就会获得一个元素的值,然后(不知何故)在dialogbox上单击OK.题：如何等待用户点击按钮？然后如何在dialogbox上单击“确定”？补充说明：使用：c
python:内存泄漏测试 weixin_34163741 python
#测试内存泄露#importgc#gc.enable()#gc.set_debug(gc.DEBUG_LEAK)#gc.collect()#start=len(gc.garbage)#printaDict[CMD]self._funcmap[aDict[CMD]](aCur,self,aDict)#gc.collect()#end=len(gc.garbage)#ifstart!=end:#pri
从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
第十二届蓝桥杯真题Python组卡片阿于阿于蓝桥杯模拟/真题
卡片本题总分：5分【问题描述】小蓝有很多数字卡片，每张卡片上都是数字0到9小蓝准备用这些卡片来拼一些数，他想从1开始拼出正整数，每拼一个，就保存起来，卡片就不能用来拼其它数了。小蓝想知道自己能从1拼到多少。例如，当小蓝有30张卡片，其中0到9各3张，则小蓝可以拼出1到10,但是拼11时卡片1已经只有一张了，不够拼出11现在小蓝手里有0到9的卡片各2021张，共20210张，请问小蓝可以从1拼到多少
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
python ==module 'datetime' has no attribute 'strptime' NO如果 python python
示例：datetime.datetime.strptime(string,"%Y-%m-%d%H:%M:%S")换成时分秒格式，数据库存储为datetime格式
在Python中如何检测和解决内存泄漏问题 python资深爱好者 python jvm
在Python中，内存泄漏通常不是像在一些低级语言（如C或C++）中那样常见，因为Python的内存管理（包括自动垃圾回收）相对高级且自动化。然而，在长时间运行的应用程序中，特别是在使用大量循环、大型数据结构或外部库时，仍然可能出现内存泄漏。以下是在Python中检测和解决内存泄漏的一些方法：1.使用内存分析工具a.objgraphobjgraph是一个用于分析Python对象图的库，可以帮助你识
Python在数据处理中的应用：从入门到精通程之编 python 信息可视化开发语言
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！在当今数字化时代，数据处理已成为各个领域不可或缺的一部分。无论是企业决策、科学研究还是日常的个人数据分析，掌握高效的
洛谷 P5534 【XR-3】等差数列 python 阿于阿于 xr
这题不用向下取整//就会错，不太能理解为什么...感觉对结果好像没什么影响啊a1,a2,n=map(int,input().split())d=a2-a1an=a1+d*(n-1)s=(a1+an)*n//2print(s)
python 装饰器每天减 1/5kg python
装饰器装饰器本质上是一个返回函数的高阶函数，可以接收函数作为参数，并返回一个新的函数。它允许你在不修改原函数代码的情况下，动态地给函数或方法添加额外的功能在我们的日常使用中，装饰器一般用于：日志记录、权限认证、性能分析、缓存等场景。简单示例defmy_decorator(func):defwrapper(*args,**kwargs):print("Beforecallingthefunction
支持向量机 (SVM) 算法详解 sssugarr 机器学习算法详解 python svm 支持向量机算法 sklearn
支持向量机(SVM)算法详解支持向量机（SupportVectorMachine,SVM）是一种监督学习模型，广泛应用于分类和回归分析。SVM特别适合高维数据，并且在处理复杂非线性数据时表现出色。本文将详细讲解SVM的原理、数学公式、应用场景及其在Python中的实现。什么是支持向量机？支持向量机的目标是找到一个最佳的决策边界（或称超平面）来最大限度地分隔不同类别的数据点。对于线性可分的数据，SV
python记录运行时间_计算python程序运行时间 weixin_39668408 python记录运行时间
本文介绍三种方法用来计算python程序的运行时间，考虑多现在计算机都是多进程执行环境，本文介绍的方法，前两种统计了其它进程的时间，实际上是python程序执行开始和结束的时间，只有最后一个方法，是计算的python程序的独自占用的CPU时间，但是python官方已经不再推荐。各位同学可以根据自己的应用情况选择考虑。1，用datatime模块，秒级精度>>>importdatetime>>>dat
Python 时间同步程序东亭山人 Python 时间同步
Python时间同步程序运行结果两种修改本地时间的方法(局域网内，利用网关服务器，穿越代理，与互联网时间同步的方法：前部分用于win7系统，后部分用于winserver2008。需要pip3installntplib需要启动WindowsTime服务。)importwin32apiimportdatetimeimportosimporttimeimportntplibdefSetClockL():
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

cs224n Assignment 1：exploring_word_vectors

目录

Abstract

Preparation

Package

Part 1：Count-Based Word Vectors

Co-Occurrence

SVD

Plotting Co-Occurrence Word Embedding

Question 1.1：Implement distinct_words

Question 1.2：I mplement compute_co_occurrence_matrix

Question 1.3：Implement reduce_to_k_dim

Question 1.4：Implement plot_embeddings

Question 1.5：Co-Occurrence Plot Analysis

Part 2：Prediction-Based Word Vectors

Reducing dimensionality of Word Embeddings

Question 2.1: GloVe Plot Analysis

Cosine Similarity

Question 2.2: Words with Multiple Meanings

Question 2.3: Synonyms & Antonyms

Question 2.4: Analogies with Word Vectors

Question 2.5: Finding Analogies

Question 2.6: Incorrect Analogy

Question 2.7: Guided Analysis of Bias in Word Vectors

Question 2.8: Independent Analysis of Bias in Word Vectors

小记

你可能感兴趣的:(NLP,CS2224n,python,人工智能,自然语言处理)

Question 1.1：Implement `distinct_words`

Question 1.2：I mplement `compute_co_occurrence_matrix`

Question 1.3：Implement `reduce_to_k_dim`

Question 1.4：Implement `plot_embeddings`