kejizuiqianfang

Word2Vec详解-公式推导以及代码

Word2Vec

1.前记
2.一些背景知识
- 2.1词向量简单介绍
- 2.2哈弗曼树简单介绍
3.基于层次softmax的模型
- 3.1COBW 层次softmax
- - 3.1.1整体结构
  - 3.1.2 前向传播和反向传播推导
- 3.2 Skip-gram 层次softmax
- - 3.2.1 整体结构
  - 3.2.2 前向传播和反向传播推导
4.基于负采样的模型
- 4.1 负采样算法简单介绍
- 4.2 CBOW 负采样
- - 4.2.1 前向传播
  - 4.2.2 反向传播
- 4.3 Skip-gram 负采样
- - 4.3.1 前向传播
  - 4.3.2 反向传播
5. 后记

1.前记

这篇Word2Vec介绍,大量参考了word2vec中的数学这份pdf,感谢peghoty大神的教程,我将这份教程的pdf版本放在了github上面,点击跳出.这里同时有一份我改写的Python版本的word2vec的代码,包含本次讲解里面的所有内容,大家可以参考一下.

除此之外,我也参考了java版本的和C语言版本的word2vec代码,最终才写出来了Python版本的,附上链接:

dav/word2vec

liuwei1206/word2vec

linshouyi/Word2VEC_java

word2vec C语言注释版本

我不建议大家直接看原作者的论文,因为原作者的论文写的太简练了,以至于很难读懂,大家直接看代码,会明白的更多,会对更多的细节有更多的理解.这里我不建议在你找了很多资料依旧看不懂的情况下再继续找更多的网上资料来看,因为网上说的大都是一些个人的理解,而且关于公式的推导偏少,大都浅尝辄止,我强烈建议大家在看完公式推导之后,直接就看源代码,这样你肯定会明白更多word2vec的内部原理.同时因为本人水平有限,有些地方不对的地方,还请指出.

2.一些背景知识

2.1词向量简单介绍

词向量,简单的来说,就是把我们习以为常的汉字,字母等转换成数字,因为对于计算机而言,它只能读懂二进制数字,但是对于人而言,十进制数字会比二进制数字更加容易理解一些,所以人们先将词转换成了十进制的数字.

对于计算机而言,词向量的转换是nlp方向特有的一种数据处理方式,因为在cv领域,图像本身就是按照数字存储在计算机中的,而且这些数字本身就已经包含了某些信息,同时每组不同的数字之间已经包含一些关系了,例如两张都是大海的图片,那么两张图片里面蓝色偏多,然后两张图片的数字RGB里面的B的占比就会比较大,当然还会有别的特征联系,但是因为人本身对数字的不敏感,所以有些信息人们是直接发现不了.

词向量的质量直接影响了之后的nlp的处理,例如机器翻译,图片理解等等,没有一个好质量的词向量,机器翻译的质量肯定是没法很好的提升的.

当初,人们的做法非常简单,直接把词映射为独热编码,例如I like writing code,那么转换成独热编码就是:

单词	独热编码
I	0001
like	0010
writing	0100
code	1000

这么看着感觉还行吧,成功的把单词转换成了编码,这样是不是就可以了呢?

答案是肯定不行的,因为这么做最明显的缺点就是,单词之间的联系没有了,比如说I和like之间的关系和like和writing之间的关系,通过0001和0010和0010和0100怎么表现,通过距离?通过1的位置?你会发现独热编码完全没法表现单词之间的任何关系.

除此之外,当你的词汇量达到千万甚至上亿级别的时候,你会遇到一个更加严重的问题,维度爆炸了.这里举例使用的是4个词,你会发现,我们使用了四个维度,当词数量达到1千万的时候,词向量的大小变成了1千万维,不说别的,光内存你都受不了这么大的词向量,假设你使用一个bit来表示每一维,那么一个单词大概需要0.12GB的内存,但是注意这只是一个词,一共会有上千万的词,这样内存爆炸了.当维度过度增长的时候,你还会发现一个问题,你会发现0特别多,这样造成的后果就是整个向量中,有用的信息特别少,几乎就没法做计算.并且在高维空间中,所有的点几乎都是均匀分布的,这样的话,你根本就没法对词进行划分.

综上,独热编码完全没法用的

所以我们需要做的是,用一个稠密的向量,来表示单词,还是上面例子,例如使用下面的方式进行表示(下面的只是举例随便写的向量):

单词	稠密向量
I	[0.112]
like	[0.224]
writing	[0.512]
code	{0.912}

我们可以看到,以前使用4维才能描述的数据,这里使用1维就可以描述了,当然这里只是举例,实际使用过程中,我在代码中使用的数据集中的有效词汇量大概是7万多,总的词汇在接近2千万,使用的维度实际是200维度的,再压缩一点我感觉也是可以的.

如何生产稠密的向量,是一个难题,这个时候,Word2vec出来了,层次softmax的word2vec本质上应该更加接近是BP神经网络,因它的整体运行模式和神经网络的前向传播和反向传播非常类似.

2.2哈弗曼树简单介绍

哈弗曼树是指给定N个权值作为N个叶子结点，构造一棵二叉树，若该树的带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树，权值较大的结点离根较近。(来自百度百科)

下面的示意图表现了哈弗曼树的构建过程,实际上这个过程也是原作者在代码中构建哈弗曼树的过程,原代码作者在构建哈弗曼树的时候并没有使用指针之类的方式进行构建,而是采用了一种稍微有点抽象的方式,应该说是原作者存储的是数组的下标的位置,构建的一个比较"抽象"的哈弗曼树.大家有机会可以去阅读一下最初的C语言的代码,原作者写的是真的好.
下图中红色是叶子节点,也即是词汇,数字代表该单词出现的频率.

为什么这里会使用到哈弗曼树呢?因为这里需要使用层次softmax,所以需要构建一个哈弗曼树.构建好一个哈弗曼树之后,我们可以有效的减少计算量,因为词频比较高的词都比较靠近树的根部,因为对词频比较高的词的更新会比较频繁,所以每次进行计算的时候,可以有效的减少对树的遍历深度,也就减少了计算量.

当然上面说的是一个方面,其次,还有别的好处,但是因为个人水平有限,这里就不再继续探讨.

3.基于层次softmax的模型

基于层次softmax的模型,主要包括输入层,投影层和输出层,非常的类似神经网络结构.CBOW的方式是在知道词 $w_t$ 的上下文 $w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2} ...$ 的情况下预测当前词 $w_t$ .而Skip-gram是在知道了词 $w_t$ 的情况下,对词 $w_t$ 的上下文 $w_{t-2}, w_{t-1}, w_{t+1}, w_{t+2} ...$ 进行预测.如下图:

而基于层次softmax的CBOW方式,我们需要最终优化的目标函数是
$\zeta=\sum \log p(w|Context(w)) \ \ \ \ \ \ \ \ \ \ \ (3.1)$

简单的说可以认为这个是层次softmax的公式,其中 $C o n t e x t (w)$ 表示的是单词 $w$ 的的上下文单词,而基于Skip-gram的方式的最终需要优化的目标函数是:

$\zeta=\sum \log p(Context(w)|w)$

下面的讨论计算中,我们主要关注的是如何构造 $p (w ∣ C o n t e x t (w))$ 和 $p (C o n t e x t (w) ∣ w)$ 即可,因为求导啥的主要都在 $p (w ∣ C o n t e x t (w))$ 和 $p (C o n t e x t (w) ∣ w)$

看到这里,估计你看的也是云里雾里,而且网上大部分说的几乎都和这个差不多,然后网上还有很多说词向量只不过是这整个模型的副产物,从某些角度来说,说词向量是这些模型的副产物也对,因为实际上这些模型的目标是给定一个上下文,然后可以预测一个词,或者给定一个词,可以预测上下文.但是在我看来,这个模型实际上想要产生的就是词向量,只不过是通过预测词或者预测上下文的方式来构造词向量,因为这样构造出来的词可以很好的体现词之间的关系.不过这些其实都不重要,如果你真的想明白word2vec,你需要做的是继续阅读,然后尽量把下面的公式自己推导一遍.

3.1COBW 层次softmax

3.1.1整体结构

下图给出了基于层次softmax的CBOW的整体结构,首先它包括输入层,投影层和输出层:

其中输入层是指 $C o n t e x t (w)$ 中所包含的 $2 c$ 个词向量 $Context(w)_1, Context(w)_2, ..., Context(w)_{2c-1}, Context(w)_{2c}$ ,

然后投影层这里指的是直接对 $2 c$ 个词向量进行累加,当然了,这里除了累加,还有另外一种方式,就是将所有的词首位相连的连接起来,但是那样做好像有些问题要处理,具体的我也没有去探讨.累加之后得到 $X_w=\sum_{i=1}^{2c}v(Context(w)_i)$

最后是输出层,输出层是一个哈弗曼树,然后其中叶子节点是N个,对应于N个单词(对应于红色节点),其中非叶子节点N-1个(对应于绿色节点).word2vec基于层次softmax的方式主要的精华部分都集中在了哈弗曼树这部分.下面慢慢介绍

3.1.2 前向传播和反向传播推导

为了便于下面的介绍和公式的推导,这里需要预先定义一些变量:

$p^w$ :从根节点出发,然后到达单词 $w$ 对应叶子节点的路径
$l^w$ :路径 $p^w$ 中包含的节点的个数
$p^w_1, p^w_2, ..., p^w_{l^w}$ : 路径 $p^w$ 中对应的各个节点,其中 $p^w_1$ 代表根节点,而 $p^w_{l^w}$ 代表的是单词 $w$ 对应的节点
$d^w_2, d^w_3 ..., d^w_{l^w}\in \left \{0, 1 \right \}$ : 单词 $w$ 对应的哈夫曼编码,一个词的哈夫曼编码是由 $l^w-1$ 位构成的, $d^w_j$ 表示路径 $p^w$ 中的第j个单词对应的哈夫曼编码,因为根节点不参与对应的编码
$\theta^w_1, \theta^w_2, ..., \theta^w_{l^w-1}\in\left \{0, 1 \right \}$ : 路径 $p^w$ 中非叶子节点对应的向量, $\theta^w_j$ 表示路径 $p^w$ 中第 $j$ 个非叶子节点对应的向量.
这里之所以给非叶子节点定义词向量,是因为这里的非叶子节点的词向量会作为下面的一个辅助变量进行计算,下面的公式推导的时候就会发现它的作用

&emsp:既然已经引入了那么多符号,那么我们通过一个简单的例子来看一下实际的运行情况,我们考虑单词w="世界",然后下图中黄色线路就是我们的单词走过的路径,整个路径上的4个节点就构成了路径 $p^w$ ,其长度 $l^w=4$ ,然后 $p^w_1, p^w_2,p^w_3,p^w_4$ 就是路径 $p^w$ 上的四个节点,其中 $d^w_2,d^w_3,d^w_4$ 分别为1,0,1,即"世界"对应的哈夫曼编码就是101,最后 $\theta^w_1, \theta^w_2, \theta^w_3$ 就是路径 $p^w$ 上的4个非叶子节点对应的词向量

下面先进行前向传播的公式推导：

下面我们需要开始考虑如何构建概率函数 $p (w ∣ C o n t e x t (w))$ ,以上面的 $w = " 世界 "$ 为例,从根节点到"世界"这个单词,经历了三次分类,也就是那3条黄色的线,而对于这个哈弗曼树而言,每次分类,相当于一个二分类.

既然是二分类,那么我们可以定义一个为正类,一个为父类.我们还有"世界"的哈夫曼编码,为101,这个哈夫曼编码是不包含根节点的,因为根节点没法分为左还是右子树.那么根据哈夫曼编码,我们一般可以把正类就认为是哈夫曼编码里面的1,而负类认为是哈夫曼编码里面的0.不过这个只是一个约定而已,因为哈夫曼编码和正类负类之间并没有什么明确要求对应的关系.但是原作者看来并不喜欢一般,原作者在写的时候,将编码为1的认定为负类,而编码为0的认定为正类,也就是说如果分到了左子树,就是负类,分到了右子树,就是正类.那么我们可以定义一个正类和负类的公式:

$Label(p^w_i)=1-d^w_i, i=2, 3, 4, ..., l^w$

公式中,刚好正类和负类是和编码相反的.

在进行二分类的时候,这里选择了sigmoid函数.虽然sigmoid函数存在梯度消失的问题,但是源代码中进行了一些处理,稍微避免了这个问题

那么分为正类的概率就是

$\sigma (x^T_w\theta)=\frac{1}{1+e^{-x^t_w\theta}}$

那么分为负类的概率就是
$1-\sigma (x^T_w\theta)$

上面公式里面包含的有 $\theta$ ，这个就是非叶子对应的向量
对于从根节点出发到达“世界”这个叶子节点所经历的3次二分类，每次分类的概率写出来就是：

第一次分类： $p(d^w_2|x_w,\theta^w_1)=1-\sigma(x^T_w\theta^w_1)$
第二次分类： $p(d^w_3|x_w,\theta^w_2)=\sigma(x^T_w\theta^w_2)$
第三次分类： $p(d^w_4|x_w,\theta^w_3)=\sigma(x^T_w\theta^w_3)$

那么，我们就可以得到 $p (w ∣ C o n t e x t (w))$ 为：

$p("世界"|Context(“世界”))=\prod_{j=2}^{4}p(d^w_j|x_w,\theta^w_{j-1})$

这里应该说是贝叶斯公式的思想，对于词典中的任意一个单词 $w$ ,哈夫曼树中肯定存在一个通路，从根节点到单词 $w$ 的路径 $p^w$ ，而路径 $p^w$ 这条路并不是一条直线，每经过一个非叶子节点，肯定需要进行一次二分类，每次分类就会产生一个概率，我们将这些所有的概率都乘起来，那么我们就可以得到我们需要的 $p (w ∣ C o n t e x t (w))$ 。

条件概率 $p (w ∣ C o n t e x t (w))$ 一般写为：

$p(w|Context(w))=\prod_{j=2}^{l^w}p(d^w_j|x_w,\theta^w_{j-1}) \ \ \ \ \ \ \ \ \ \ \ (3.2)$

其中：

$p(d^w_j|x_w,\theta^w_{j-1})=\left\{\begin{matrix} \sigma(x^T_w\theta^w_{j-1}), & d^w_j=0 \\ 1 - \sigma(x^T_w\theta^w_j-1), & d^w_j=1 \end{matrix}\right.$

将上面的两个公式合并到一起

$p(d^w_j|x_w,\theta^w_{j-1})=[\sigma(x^T_w\theta^w_{j-1})^{1-d^w_j}\cdot [1-\sigma(x^T_w\theta^w_{j-1})^{d^w_j}]]$

将(3.2)带入(3.1)中，得到

$\zeta =\sum_{w \in C} \log \prod_{j=2}^{l^w}{\{[\sigma(x^T_w\theta^w_{j-1})]^{1-d^w_j}\cdot [1-\sigma(x^T_w\theta^w_{j-1})]^{d^w_j}\}} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ \ = \sum_{w \in C} \sum_{j=2}^{l^w}\{(1-d^w_j) \cdot \log [\sigma(x^T_w \theta ^w_{j-1})] + d^w_j \cdot \log [1-\sigma(x^T_w \theta ^w_{j-1})] \} \ \ \ \ (3.3)$

为了推导方便，我们直接把累加里面的部分提取出来：

$\zeta(w,j)=(1-d^w_j) \cdot \log [\sigma(x^T_w \theta ^w_{j-1})] + d^w_j \cdot \log [1-\sigma(x^T_w \theta ^w_{j-1})]$

至此，前向传播的公式已经全部推导完毕，下面开始反向传播的推导

Word2Vec中采用的是随机梯度上升法，为什么采用随机梯度上升法呢？在一般的神经网络中，我们都是采用的随机梯度下降法，因为在那些优化的目标里面，是让损失值最小，所以采用让目标沿着梯度降低的方向进行计算。而在这里，我们想要让目标函数 $\zeta$ 最大，因为只有当 $\zeta$ 最大的时候，才说明了这个句子（单词）出现在语料库中的概率越大,其实就是说在强化一个词 $w$ 和某些词(例如和 $w$ 出现在一个句子中的词)的关系.

为了能够使用随机梯度上升法,我们需要先对相应的变量求梯度,观察公式 $\zeta(w,j)$ ,我们可以发现,其中的变量只有 $x^T_w$ 和 $\theta^w_{j-1}$ ,其中 $\ \in \ C, j=2, ..., l^w$ .首先计算函数 $\zeta(w,j)$ 关于 $\theta^w_{j-1}$ 的导数:

在进行所有的推导之前,我们先对 $s i g m o i d$ 函数进行求导,因为下面会用到:

$\frac{\Delta \sigma(x)}{\Delta x} = \frac{e^x}{(e^x+1)^2}=\sigma(x)(1-\sigma(x))$

$\begin {aligned} \frac{\Delta \zeta(w,j)}{\Delta \theta ^w_{j-1}} &= (1-d^w_j)[1- \sigma(x^T_w \theta ^w_{j-1})]x_w - d^w_j \sigma (x^T_w \theta^w_{j-1})x_w \\ &= [1-d^w_j- \sigma(x^T_w \theta^w_{j-1})]x_w \end {aligned}$

那么的话,我们可以写出 $\theta$ 的更新公式:

$\theta ^ w_{j-1}= \theta^w_{j-1}+ \eta [1-d^w_j- \sigma(x^T_w \theta^w_{j-1})]x_w$

其中 $\eta$ 是学习率,一般在设置学习率的时候,原作者在CBOW中将学习率设置为0.05,在Skip-gram中设置为了0.025.不过在代码中,学习率会根据学习的进行,不停的进行着衰减,用来满足自适应性,防止训练后期的动荡和加快收敛.

接下来可以考虑关于 $x$ 的梯度了,观察 $\zeta(w,j)$ 可以发现, $x$ 和 $\theta$ 其实是对称的,那么在计算过程中,其实我们将最终结果的变量的位置进行交换就可以了

$\frac{\Delta \zeta(w,j)}{\Delta x_w} = [1-d^w_j- \sigma(x^T_w \theta^w_{j-1})] \theta^w_{j-1}$

到了这里,我们已经求出来了 $x_w$ 的梯度,但是我们想要的其实是每次进行运算的每个单词的梯度,而 $x_w$ 是 $C o n t e x t (w)$ 中所有单词累加的结果,那么我们怎么使用 $x_w$ 来对 $C o n t e x t (w)$ 中的每个单词 $v (u)$ 进行更新呢?这里原作者选择了一个简单粗暴的方式,直接使用 $x_w$ 的梯度累加对 $v (u)$ 进行更新:

$\eta \sum^{l^w}_{j=2} \frac{\Delta \zeta(w,j)}{\Delta x_w}, \ \ u \in Context(w)$

至于使用别的方式是不是更有效,我没有进行尝试,所以这里也就不在进行深入的探讨

虽然推导已经结束了,但是实际写代码和实际的推导还是有点差距的,下面是伪代码,你可以发现,这个和推导的计算过程还是稍有不同

这里需要注意的是,(3.3)和(3.4)不可以电刀,因为每次进行反向传播更新 $v (u)$ ,的时候,我们在进行反向传播的时候,需要使用的是前向传播的时候参与计算的 $\theta^w_{j-1}$ ,而不是更新之后的 $\theta^w_{j-1}$ .

同时,上面的符合和实际代码中的符号不太一样,在word2vec最初的代码中(我写的代码也按照了原来的命名方式进行), $s y n 0$ 表示 $v (u)$ ,而 $s y n 1$ 表示 $\theta^w_{j-1}$ , $n e u l$ 表示 $x_w$ , $n e u l e$ 表示 $e$

读到了这里,你可能对word2vec有了一些了解,也可能云里雾里.但是都没关系,大部分人在没有接触代码的时候,都会感觉到word2vec很神奇,不清楚它的运行方式,看到这里,我强烈建议你去看代码,原版代码中只看cbow相关的层次softmax

3.2 Skip-gram 层次softmax

3.2.1 整体结构

可以认为skip-gram模式的层次softmax的结构和3.1 cbow的很类似,可以说它也具有输入层,"投影层"和输出层,但是因为它输入的就是一个单词,所以投影层就可以不要了.可以得到类似的下面的结构:

3.2.2 前向传播和反向传播推导

Skip-gram举例来看的话,可以看到类似下面的这样的示意图:

其中蓝色的路线是需要走的路线,完整的句子是I like writing code,所以首先是先到I,然后再到like这条路线,最后到code这条路线.每条路线都像上面cbow里面的类似,都是经过节点的时候类似于经过一个二分类.所以本节的符号和上一节类似,就不再重复列出.

首先我们先定义每个路线的概率函数为 $\ u \in Context(w)$ ,表示在给定单词 $w$ 的情况下,找到单词 $w$ 的 $C o n t e x t (w)$ 对应的词的概率(路线),记为:

$\prod^{l^u}_{j=2}p(d^w_j|v(w), \theta^u_{j-1})$

之后,我们知道单词 $w$ 对应的上下文单词 $C o n t e x t (w)$ 包含好几个单词,那么我们可以定义:

$\prod_{u \in Context(w)}p(u|w)$
其中 $p(d^u_j|v(w), \theta^u_{j-1})$ 和cbow中的定义类似,为:

$p(d^u_j|v(w), \theta^u_{j-1})=[\sigma(v(w)^T \theta^u_{j-1})]^{1-d^w_j} \cdot [1- \sigma(v(w)^T \theta^u_{j-1})]^{d^u_j}$

那么现在将上面的式子带回,然后可以得到:

$\begin {aligned} \zeta &= \sum_{w \in C} \log \prod_{u \in Context(w)} \prod_{j=2}^{l^u} \{ [\sigma(v(w)^T \theta^u_{j-1})]^{1-d^w_j} \cdot [1- \sigma(v(w)^T \theta^u_{j-1})]^{d^u_j} \} \\ &= \sum_{w \in C} \sum_{u \in Context(w)} \sum_{j=2}^{l^u}\{ (1-d^u_j) \cdot \log [\sigma(v(w)^T\theta^u_{j-1})] + d^u_j \log [1- \sigma(v(w)^T \theta^u_{j-1})] \} \end {aligned}$

还和上次一样,为了推导方便,我们将需要求导的部分直接提取出来:

$\zeta (w,u,j)=(1-d^u_j) \cdot \log [\sigma(v(w)^T\theta^u_{j-1})] + d^u_j \log [1- \sigma(v(w)^T \theta^u_{j-1})]$

依旧和上次一样,我们发现这里面只有两个变量,分别是 $v (w)$ 和 $\theta^u_{j-1}$ ,那么我们依旧使用随机梯度上升法来对其进行优化,首先计算关于 $\theta^u_{j-1}$ 的梯度:

$\begin {aligned} \frac{ \Delta \zeta(w,u,j)}{\Delta \theta^u_{j-1}} &= (1-d^u_j)(1- \sigma(v(w)^T \theta^u_{j-1}))v(w)-d^u_j \sigma(v(w)^T \theta^u_{j-1})v(w) \\ &= [1-d^u_j-\sigma(v(w)^T \theta^u_{j-1}]v(w) \end {aligned}$

于是, $\theta^u_{j-1}$ 的更新公式可以写成:

$\theta^u_{j-1}=\theta^u_{j-1} + \eta [1-d^u_j-\sigma(v(w)^T \theta^u_{j-1}]v(w)$

同理,根据对称性,可以很容易得到 $\zeta(w,u,j)$ 关于 $v (w)$ 的梯度:

$\begin {aligned} \frac{ \Delta \zeta(w,u,j)}{\Delta v(w)} &= [1-d^u_j-\sigma(v(w)^T \theta^u_{j-1}] \theta^u_{j-1} \end {aligned}$

我们也可以得到关于v(w)的更新公式:

$\eta \sum_{u \in Context(w)} \sum^{l^w}_{j=2} \frac{ \Delta \zeta(w,u,j)}{\Delta v(w)}$

那么我们可以到Skip-gram使用层次softmax方法的时候的伪代码:

这里依旧需要注意的是,(3.3)和(3.4)不能交换位置,原因在上面已经解释过了

这里给出和源码的对应关系: $s y n 0$ 表示 $v (u)$ ,而 $s y n 1$ 表示 $\theta^w_{j-1}$ , $n e u l$ 表示 $x_w$ , $n e u l e$ 表示 $e$ . 其实看到这里,你会发现,只要搞懂了一个,剩下的那个就很简单了

4.基于负采样的模型

下面将介绍基于负采样的CBOW和Skip-gram模型.具体什么NCE,NGE,我也不是特别清楚他们的关系,大家都说负采样是NCE的简化版本,具体什么样,我没有深究,以后有机会了再去研究.使用负采样的时候,可以明显感觉到训练速度快于层次softmax,而且不需要构建复杂的哈弗曼树.再我实际训练的过程中,在使用C语言的时候,相对于层次softmax,训练速度可以获得好几倍的增长,即使使用Python,训练速度也至少增长了两倍.

4.1 负采样算法简单介绍

什么是负采样呢?
例如在CBOW中,我们是知道了 $C o n t e x t (w)$ ,然后来预测单词 $w$ ,那么这个时候,相对于 $C o n t e x t (w)$ ,我们提供一组结果,这些结果中包含正确的解 $w$ ,剩下的都是错误的解,那么 $w$ 就是正样本,剩下的解就是负样本.Skip-gram类似,相当于给一组输入,然后预测正确的输出 $C o n t e x t (w)$ ,输入的一组数据里面,有一个是正确的输入,为 $v (w)$ ,剩下的都是错误的输入,也就是负样本.
那么如何确定怎么选取负样本呢?
这里采用的是一种带权采样的方法,这里的权,在这里可以使用词的频率来表示,也就是说,词的频率越高,它的权重越大,被采集到的可能性就越大.例如设词典中每个单词 $w$ 对应的权值为 $l e n (w)$ :

$len(w)=\frac{counter(w)}{\sum_{u \in C}counter(u)}$

这里 $c o u n t e r (w)$ 表示单词 $w$ 出现的次数.

在word2vec中,它的做法很简单,在word2vec中,令

$l_0=0,..., l_k=\sum^{k}_{j=1}len(w_j), \ \ \ k=1,2,...,N$

这里 $w_j$ 表示词典中的第 $j$ 个单词,那么按照集合 $\{l_i\}^N_{j=0}$ 中每个元素的大小,可以按照一定的比例将 $[0, 1]$ 进行划分,这个划分是非等距的,并且将 $[0, 1]$ 划分成了N份(也就是说有N个单词).这个时候,再提供一个在 $[0, 1]$ 上的等距划分,划分为M份,这里要求 $M > > N$ ,如下图所示:

这样就可以将非等距划分的 $\{l_i\}^N_{j=1}$ 映射到等距划分的 $T a b l e (i)$ 上,当然了, $l_i$ 实际上就代表的单词,那么在映射的时候,把 $l_j$ 换成 $w_j$ :

$Table(i)=w_j, \ \ \ \ \ \ \ \ \ \ \ m_i \in (l_j-l_{j-1}),i=1,2,...,M-1,j=1,2...,N$

之后根据映射关系,每次对单词 $w^k$ 进行负采样的时候,在 $[1, M - 1]$ 上生成一个随机数 $i$ ,然后 $T a b l e (i)$ 就是那个被采样到的单词.如果这个时候不幸采样到了单词 $w^k$ 自己,这个时候,word2vec源代码的处理方式是直接跳过去,忽略这次采样的结果就行了,毕竟这样的概率不太高.
不过在word2vec中,原作者实际上没有直接使用 $c o u n t e r (w)$ ,而是加上了一个 $\alpha$ 次方,在代码中,实际上是下面这样的:

$\begin {aligned} len(w) &= \frac{counter(w)^\alpha}{\sum_{u \in C}[counter(u)]^\alpha} \\ \\ &= \frac{counter(w)^{0.75}}{\sum_{u \in C}[counter(u)]^{0.75}} \end {aligned}$

猜测作者这样写,是因为想提高一点低频词被采集到的概率.除此之外,作者在代码中取 $M=10^8$ ,源代码中是变量table_size.

这里我在使用Python实现的时候,采用的是原作者的方式,但是实际在初始化Tabel(i)的时候,还是挺慢的,大概需要十几秒的时间,原作者使用的C语言,要快的多.我猜想的是numpy自带的有choice函数,这个函数可以根据所给的数据,从这些数据中随机抽取一个出来,同时可以设置每个数据被随机抽取到的概率.然后每次进行负采样的时候,直接使用这个函数生成负采样结果,不知道这样效率会不会提升.或者提前使用这个函数生成一组负采样结果,计算的时候就直接拿来用.我没有尝试,你要是感兴趣可以试试.

4.2 CBOW 负采样

4.2.1 前向传播

上面的负采样已经介绍完了,下面开始进行公式的推导.首先我们先选好一个关于 $C o n t e x t (w)$ 的负样本集 $N E G (w)$ ,对于 $\forall u \in NEG(w) \cup \{w\}$ ,我们定义单词 $u$ 的标签为:

$L^w(u)= \left\{\begin{matrix} 1, & \ \ \ u=w \\ 0, & \ \ \ u \neq w \end{matrix}\right.$

其中1表示是正样本,0表示负样本.
对于一个给定的 $C o n t e x t (w)$ 的正样本 $N E G (w)$ ,我们希望最大化的目标函数是:

$g(w)=\prod_{u \in \{w\} \cup NEG(W)} p(u|Context(w))$

其中

$\begin {aligned} p(u|Context(w)) &= \left\{\begin{matrix} \sigma(x^T_w \theta^u), & \ \ \ L^w(u)=1 \\ 1-\sigma(x^T_w \theta^u), & \ \ \ L^w(u)=0 \end{matrix}\right. \\\\ &= [\sigma(x^T_w\theta^u)]^{L^w(u)} \cdot [1-\sigma(x^T_w)\theta^u]^{1-L^w(u)} \end {aligned}$

这里需要注意的是,这里的 $x_w$ 依旧还是上面CBOW-hs中定义的 $C o n t e x t (w)$ 中所有词的词向量之和,而 $\theta^u \in R^m$ 在这里作为一个辅助向量,作为待训练的参数.

为什么最大化 $g (w)$ 就可以了呢?我们可以改变一下g(w)的表达式:

$g(w)=\sigma(x^T_w\theta^w) \prod_{u \in NEG(w)} [1- \sigma(x^T_w\theta^u)]$

我们可以看到,如果我们最大化 $g (w)$ 的话,就可在最大化 $\sigma(x^T_w \theta^w)$ 的同时,最大化 $\sigma(x^T_w\theta^u), \ u \in NEG(w)$ ,也就是最小化 $\sigma(x^T_w\theta^u), \ u \in NEG(w)$ .这样就相当于最大化了正样本,最小化了负样本.既然明白了这个,那么对于整个语料库,有:

$\prod_{w \in C}g(w)$

作为最终的优化目标,这里为了求导方便,其实就是为了把 $\prod$ 转换成 $\sum$ ,我们在 $G$ 前面加上 $l o g$ ,得到:

$\begin {aligned} \zeta &= \log G \\ &= \sum_{w \in C} \log g(w) \\ &= \sum_{w \in C} \sum_{u \in {w} \cup NEG(w)} \log \{ [\sigma(x^T_w\theta^u)]^{L^w(u)} \cdot [1-\sigma(x^T_w)\theta^u]^{1-L^w(u)} \} \\ &= \sum_{w \in C} \sum_{u \in {w} \cup NEG(w)} \{ L^w(u) \cdot \log[\sigma(x^T_w \theta^u) + [1-L^w(u)] \cdot \log [1-\sigma(x^T_w \theta^u)]] \} \end {aligned}$

同样,为了求导方便,我们还是取 $\zeta(w,u)$ :

$\zeta(w,u) = L^w(u) \cdot \log[\sigma(x^T_w \theta^u) + [1-L^w(u)] \cdot \log [1-\sigma(x^T_w \theta^u)]]$

4.2.2 反向传播

于是乎,现在到了反向传播的时候了,和以前的都几乎一样啦,这还是使用随机梯度上升法,然后首先求关于 $\theta^u$ 的梯度:

$\begin {aligned} \frac{\Delta \zeta(w,u)}{\Delta \theta^u} &=L^w(u)[1- \sigma(x^T_w\theta^u)]x_w-[1-L^w(u)] \cdot \sigma(x^T_w \theta^u)x_w \\ &=[L^w(u)-\sigma(x^T_w \theta^u)]x_w \end {aligned}$

那么 $\theta^u$ 的更新公式可以写成:

$\theta^u=\theta^u+\eta [L^w(u)-\sigma(x^T_w \theta^u)]x_w$

同时根据对称性,额可以得到 $x_w$ 的梯度:

$\begin {aligned} \frac{\Delta \zeta(w,u)}{\Delta x_w} &=[L^w(u)-\sigma(x^T_w \theta^u)] \theta^u \end {aligned}$

那么 $v (w)$ 的更新公式可以写成:

$v(\tilde w) =v(\tilde w)+ \eta \sum_{u \in {w} \cup NEG(w)} \frac{\Delta \zeta(w,u)}{\Delta x_w}, \ \ \tilde w \in Context(w)$

最后这里给出基于负采样的CBOW的伪代码:

$\begin {aligned} & 1. \ e=0 \\ & 2. \ x_w = \sum_{u \in Context(w)}v(u) \\ & 3. \ FOR \ \ u = {w} \cup NEG(w): \\ & \ \ \ \ \{ \\ & \ \ \ \ \ \ \ \ 3.1 \ q = \sigma(x^T_w \theta^u) \\ & \ \ \ \ \ \ \ \ 3.2 \ g = \eta(L^u(w) -q) \\ & \ \ \ \ \ \ \ \ 3.3 \ e = e + g \theta^u \\ & \ \ \ \ \ \ \ \ 3.4 \ \theta^u = \theta^u + g x_w \\ & \ \ \ \ \} \\ & 4. \ FOR \ \ u \in Context(w): \\ & \ \ \ \ \{ \\ & \ \ \ \ \ \ \ \ \ v(u) = v(u) + e \\ & \ \ \ \ \} \\ \end {aligned}$
依旧是3.3和3.4的位置不能对调,然后对应于代码的关系是: $s y n 0$ 对应 $v (u)$ , $s y n 1 n e g$ 对应 $\theta^u$ (不过在Python中这里依旧使用的是syn1), $n e u l$ 对应是 $x_w$ ,neule对应是 $e$ .

4.3 Skip-gram 负采样

4.3.1 前向传播

因为这里和前面的几乎都很类似,所以这里就不再多叙述,直接给出最终的优化目标

$\begin {aligned} \zeta&= \log G \\\\ G&=\prod_{w \in C}g(w) \\ \\ g(w)&= \prod_{\tilde w \in Context(w)} \prod_{u \in \{w\} \cup NEU^{\tilde w}(w)}p(Context|u) \\\\ p(Context|u) & = \left\{\begin{matrix} \sigma(v(\tilde w)^T \theta^u), & \ \ \ L^w(u)=1 \\ 1-\sigma(v(\tilde w)^T \theta^u), & \ \ \ L^w(u)=0 \end{matrix}\right. \\ &=[\sigma(v(\tilde w)^T]^{L^w(u)} \cdot [1-\sigma(v(\tilde w)^T]^{1-L^w(u)} \\\\ L^w(u)&= \left\{\begin{matrix} 1, & \ \ \ u=w \\ 0, & \ \ \ u \neq w \end{matrix}\right. \end {aligned}$

化简之后,可以得到 $\zeta$

$\begin {aligned} \zeta = & \sum_{w\in C} \sum_{\tilde w \in Context(w)} \sum_{u \in \{w\} \cup NEU^{\tilde w}(w)} \\ &L^w(u)\log[\sigma(v(\tilde w)^T \theta^u)] + [1-L^w(u)]\log[1-\sigma(v(\tilde w)^T \theta^u)] \end {aligned}$

为了推导方便,我们依旧提取出来 $\zeta(w, \tilde w, u)$

$\zeta(w, \tilde w, u) = L^w(u)\log[\sigma(v(\tilde w)^T \theta^u)] + [1-L^w(u)]\log[1-\sigma(v(\tilde w)^T \theta^u)]$

下面进行梯度的求解.

4.3.2 反向传播

这里依旧首先对 $\theta^u$ 进行求导:

$\begin {aligned} \frac{\Delta \zeta(w, \tilde w, u)}{\Delta \theta^u} &=L^w(u)[1- \sigma(v(\tilde w)^T_w\theta^u)]v(\tilde w)-[1-L^w(u)] \cdot \sigma(v(\tilde w)_w \theta^u)v(\tilde w)^T \\ &=[L^w(u)-\sigma(v(\tilde w)^T \theta^u)]v(\tilde w) \end {aligned}$

然后得到 $\theta^u$ 的更新公式:

$\theta^u = \theta^u + \eta =[L^w(u)-\sigma(v(\tilde w)^T \theta^u)]v(\tilde w)$

同理根据对称性,得到:

$\begin {aligned} \frac{\Delta \zeta(w, \tilde w, u)}{\Delta v(\tilde w)} &=[L^w(u)-\sigma(v(\tilde w)^T \theta^u)]\theta^u \end {aligned}$

然后得到 $v(\tilde w)$ 的更新公式:

$v(\tilde w) = v(\tilde w) + \sum_{u \in \{w\} \cup NEU^{\tilde w}(w)} \frac{\Delta \zeta(w, \tilde w, u)}{\Delta v(\tilde w)}, \ \ \ \tilde w \in Context(w)$

最后依旧是伪代码,同时还是3.3和3.4不能颠倒.同时和代码对应关系是: $s y n 0$ 对应 $v (u)$ , $s y n 1 n e g$ 对应 $\theta^u$ (python 代码中依旧是syn1), $n e u l e$ 对应 $e$ .

$\begin {aligned} & 1. \ FOR \ \ \tilde w \in Context(w): \\ & \ \ \ \ \{ \\ & \ \ \ \ \ \ \ \ \ 2. \ e = 0 \\ & \ \ \ \ \ \ \ \ \ 3. \ FOR \ \ u = {w} \cup NEG^{\tilde w}(w): \\ & \ \ \ \ \ \ \ \ \ \ \ \ \{ \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 3.1 \ q = \sigma(v(\tilde w)^T \theta^u) \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 3.2 \ g = \eta(L^w(u) - q) \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 3.3 \ e = e + g \theta^u \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 3.4 \ \theta^u = \theta^u + g v(\tilde w) \\ & \ \ \ \ \ \ \ \ \ \ \ \ \} \\ & \ \ \ \ \ \ \ \ v(\tilde w) = v(\tilde w) + e \\ & \ \ \ \ \} \\ \end {aligned}$

5. 后记

断断续续使用了4天写完了这篇博客,这篇博客几乎都参考了peghoty.虽然大神总结的很好了,根据大神的教程和github的一些代码,已经使用Python复写出word2vec的代码,并且成功训练出了还行的结果,虽然Python效率很低,而且对多线程的支持不好(使用了多进程),多进程数据交互时间较长,但是也是实现出来了.然后使用这篇博客记录一些自己的理解.本来认为理解的已经还不错了.但是在参考了peghoty大神的总结,然后写博客的过程中,对于公式的推导,和对于一些模糊的地方有了一个更加清晰的认识,也感觉到了自己学习的不足,日后需要更加努力!

你可能感兴趣的:(深度学习,python,word2vec,词向量,层次softmax,cbow,skip)

python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
计算机组成与接口16 落——枫单片机嵌入式硬件
1.0的表示方法唯一的有补码，移码，ASCII码2.可以多次编程的只读存储器是EPROM,掩膜式ROM3.8259A芯片可设置成脉冲边沿触发方式；全嵌套方式；自动中断结束方式；特殊屏蔽方式4.计算机系统中的总线按层次可以分为板级总线；系统总线；片内总线5.可以或者曾经用作打印机接口的有：RS-232接口；Centronics接口；USB接口6.虚拟存储器对应的地址也叫逻辑地址，虚拟存储器比主存储器
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
学术PPT模板_院士_国家科学技术奖_杰青基金_长江学者特聘教授_校企联聘长江_重点研发_优青_青长_青拔ppt制作案例 WordinPPT_2025 学术答辩PPT ppt powerpoint
学术PPT模板院士_国家科学技术奖_杰青基金_长江学者特聘教授_校企联聘长江_重点研发_优青_青长_青拔/杰出青年科学基金答辩PPT模板wordinppt.com/gjjq.html国自然项目。“杰青”也成为国内仅次于两院院士的第二层次高端人才，是科学领域评判创新潜力与学术水平的权威标尺。2025年起，将国家杰出青年科学基金项目更名为青年科学基金项目（A类）。/长江学者答辩PPT模板wordinp
【数据库系统原理】Ch4 SQL与关系数据库基本操作 GIS程序媛—椰子数据库数据库 sql
目录大纲4.1SQL概述4.2MySQL预备知识4.3数据定义4.4数据更新4.5数据查询4.6视图习题真题2024-102024-042023-102023-042022-10大纲4.1SQL概述结构化查询语言(StructuredQueryLanguage,SQL)是关系数据库的标准语言,也是本课程需要掌握的一类语言。4.1.1SQL的发展了解SQL的产生和发展历程,要求达到"识记"层次。4.
Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
31天Python入门——第10天:深入理解值传递·引用传递以及深浅拷贝问题安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.什么是对象2.对象类型3.引用传递3.1基本概念3.2不可变对象和可变对象的引用传递不可变对象可变对象3.3函数参数传递中的引用传递不可变对象作为参数可变对象作为参数3.4如何避免可变对象引用传递带来的问题3.5总结:值传递和引用传递4.深浅拷贝问题4.1浅拷贝4.2深拷贝4.3使用场景1.什么是对象如果你学过驾驶，八成被教练骂过吧？可能你的脑海中现在还回荡着教练粗
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul