独影月下酌酒

word2vec原理

1.背景

2013年，Google开源了一款用于词向量计算的工具—word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量(word embedding)，可以很好地度量词与词之间的相似性。随着深度学习在自然语言处理中应用的普及，很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是，word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。

2.统计语言模型

什么是统计语言模型呢？

简单来说，统计语言模型就是用来计算一个句子的概率的概率模型，它通常基于一个语料库来构建。通俗来说就是让整条语句看起来是一句人话。

如何计算一段文本序列在某种语言下出现的概率？

例如，在机器翻译的问题中，如果我们知道了目标语言中每句话的概率，就可以从候选集合中挑选出最合理的句子做为翻译结果返回。

统计语言模型给出了这一类问题的一个基本解决框架。对于一段文本序列 $S=w_1, w_2, ... , w_T$ ，它的概率可以表示为：
$P(S)=P(w_1, w_2, ..., w_T)=\prod_{t=1}^Tp(w_t|w_1, w_2, ..., w_{t-1})$
即将序列的联合概率转化为一系列条件概率的乘积。问题变成了如何去预测这些给定previous words下的条件概率： $p(w_t|w_1,w_2,...,w_{t-1})$ 。一般来说，语言模型都是为了使得条件概率 $p(w_t|w_1,w_2,...,w_{t-1})$ 最大化，不过考虑到近因效应，当前词只与距离它比较近的n个词更加相关(一般n不超过5)，而非前面所有的词都有关。上述公式可以近似为：
$p(w_t|w_1, w_2, ..., w_{t-1}) \approx p(w_t|w_{t-(n+1)}, ..., w_{t-1})$
N-gram模型仍有其局限性。

首先，由于参数空间的爆炸式增长，它无法处理更长程的context( $N > 3$ )。
其次，它没有考虑词与词之间内在的联系性。
- 例如：“the cat is walking in the bedroom"这句话。如果在训练语料中看到了很多类似“the dog is walking in the bedroom”或是“the cat is running in the bedroom”这样的句子；那么，哪怕此前没有见过这句话"the cat is walking in the bedroom”，也可以从“cat”和“dog”（“walking”和“running”）之间的相似性，推测出这句话的概率。

然而， Ngram模型做不到。因为Ngram本质上是将词当做一个个孤立的原子单元(atomic unit)去处理的。这种处理方式对应到数学上的形式是一个个离散的one-hot向量(除了一个词典索引的下标对应的方向上是1，其余方向上都是0)。例如:对于一个大小为5的词典：{“I”, “love”, “nature”, “luaguage”, “processing”}，其中的“nature”对应的one-hot向量为： $[0, 0, 1, 0, 0]$ 。显然，one-hot向量的维度等于词典的大小。在动辄上万甚至百万词典的实际应用中，面临着巨大的维度灾难问题(The Curse of Dimensionality)。

3.神经语言模型

NNLM最初由Bengio在2003年发表的一篇论文《A Neural Probabilistic Language Mode》中提出来的，word2vec便是从其中简化训练而来。

NNLM模型的基本思想可以概括如下：

假定词表中的每一个word都对应着一个连续的特征向量；
假定一个连续平滑的概率模型，输入一段词向量的序列，可以输出这段序列的联合概率；
同时学习词向量的权重和概率模型里的参数。

将整个模型拆分成两部分加以理解：

一个线性的Embedding层
将输入的 $N - 1$ 个one-hot词向量，通过一个共享的 $D \times V$ 的矩阵 $C$ ，映射为 $N - 1$ 个分布式的词向量(distributed vector)。其中， $V$ 是词典的大小， $D$ 是Embedding向量的维度（一个先验参数）。C矩阵里存储了要学习的word vector。
一个简单的前向反馈神经网络 $g$
它由一个tanh隐层和一个softmax输出层组成。通过将Embedding层输出的 $N - 1$ 个词向量映射为一个长度为 $V$ 的概率分布向量，从而对词典中的word在输入context下的条件概率做出预估： $p(w_i|w_1,w_2,...,w_{t-1}) \approx f(w_i, w_{t-1}, ..., w_{t-n+1}) = g(w_i, C(w_{t-n+1}), ..., C(w_{t-1}))$

通过最小化一个cross-entropy的正则化损失函数来调整模型的参数 $\ \theta$ ：
$L(\theta)=\frac{1}{T}\sum_t{\log{f(w_t, w_{t-1}, ..., w_{t-n+1})}}+R(\theta)$
其中，模型的参数 $\theta$ 包括了Embedding层矩阵 $C$ 的元素，和前向反馈神经网络模型 $g$ 里的权重。这是一个巨大的参数空间。

在用SGD学习更新模型的参数时，并不是所有的参数都需要调整（例如未在输入的context中出现的词对应的词向量）。计算的瓶颈主要是在softmax层的归一化函数上（需要对词典中所有的word计算一遍条件概率）。

神经语言模型解决了两个问题：

统计语言模型里关注的条件概率 $p(w_t|context)$ 的计算
向量空间模型里关注的词向量的表达

通过引入连续的词向量和平滑的概率模型，使得可以在一个连续空间里对序列概率进行建模，从而从根本上缓解数据稀疏性和维度灾难的问题。另一方面，以条件概率 $p(w_t|context)$ 为学习目标去更新词向量的权重，具有更强的导向性。

4.CBOW & Skip-gram Model

NNLM存在的几个问题：

NNLM模型只能处理定长的序列。在03年的论文里，Bengio等人将模型能够一次处理的序列长度N提高到了5，虽然相比bigram和trigram已经是很大的提升，但依然缺少灵活性。
NNLM的训练太慢了。即便是在百万量级的数据集上，即便是借助了40个CPU进行训练，NNLM也需要耗时数周才能给出一个稍微靠谱的解来。

这时Mikolov注意到，原始的NNLM模型的训练其实可以拆分成两个步骤：

用一个简单模型训练出连续的词向量；
基于词向量的表达，训练一个连续的Ngram神经网络模型。

而NNLM模型的计算瓶颈主要是在第二步。

如果我们只是想得到word的连续特征向量，是不是可以对第二步里的神经网络模型进行简化呢？

Mikolov是这么想的，也是这么做的。他在2013年一口气推出了两篇paper，并开源了一款计算词向量的工具——至此，word2vec横空出世，主角闪亮登场。

在word2vec中提出了两个模型(假设上下文窗口为3，图来自2013年Mikolov的原始论文，注意这里没有隐藏层，只有输入层、投影层、输出层，且输入层到投影层不带权重，投影层到输出层带权重)

CBOW(Continuous Bag-of-Word)：以上下文词汇预测当前词，即用 $w_{t-2}、w_{t-1}、w_{t+1}、w_{t+2}$ 去预测 $w_{t}$ 。
SkipGram：以当前词预测其上下文词汇，即用 $w_{t}$ 去预测 $w_{t-2}、w_{t-1}、w_{t+1}、w_{t+2}$ 。

5.基于Hierarchical Softmax的模型

5.1 基本介绍

传统的神经网络词向量语言模型，里面一般有三层，输入层(词向量)，隐藏层和输出层(softmax层)。最大的问题在于从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值。这个模型如下图所示。其中 $V$ 是词汇表的大小，

word2vec对这个模型做了改进，

首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。
- 输入的是三个4维词向量： $(1, 2, 3, 4), (9, 6, 11, 8), (5, 10, 7, 12)$ ,那么word2vec映射后的词向量就是 $(5, 6, 7, 8)$ 。由于这里是从多个词向量变成了一个词向量。
从隐藏层到输出的softmax层这里的计算量做改进。
为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。

Q: 如何映射呢？

由于把之前所有都要计算的从输出softmax层的概率计算变成了一颗二叉霍夫曼树，那么softmax概率计算只需要沿着树形结构进行就可以了。如下图所示，沿着霍夫曼树从根节点一直走到叶子节点的词 $w_2$ 。

与神经网络语言模型相比，霍夫曼树的所有内部节点就类似之前神经网络隐藏层的神经元, 其中，根节点的词向量对应投影后的词向量，而所有叶子节点就类似于神经网络softmax输出层的神经元，叶子节点的个数就是词汇表的大小。在霍夫曼树中，隐藏层到输出层的softmax映射不是一下子完成的，而是沿着霍夫曼树一步步完成的，因此这种softmax取名为"Hierarchical Softmax"。

Q：如何“沿着霍夫曼树一步步完成”呢？

在word2vec中，采用了二元逻辑回归的方法，即规定沿着左子树走，那么就是负类(霍夫曼树编码1)，沿着右子树走，那么就是正类(霍夫曼树编码0)。判别正类和负类的方法是使用sigmoid函数，即：
$\sigma(x_w^T\theta) = \frac{1}{1+e^{-x_w^T\theta}}$
其中 $x_w$ 是当前内部节点的词向量，而 $\theta$ 则是需要从训练样本求出的逻辑回归的模型参数。

Q：使用霍夫曼树有什么好处呢？

由于是二叉树，之前计算量为 $V$ ,现在变成了 $log_2V$ 。
由于使用霍夫曼树是高频的词靠近树根，这样高频词需要更少的时间会被找到，这符合我们的贪心优化思想。

容易理解，被划分为左子树而成为负类的概率为 $P (-) = 1 - P (+)$ 。在某一个内部节点，要判断是沿左子树还是右子树走的标准就是看 $P (-), P (+)$ 谁的概率值大。 而控制 $P (-), P (+)$ 谁的概率值大的因素一个是当前节点的词向量，另一个是当前节点的模型参数 $\theta$ (从公式里就能看出来)。

对于上图中的 $w_2$ ，如果它是一个训练样本的输出，那么我们期望对于里面的隐藏节点 $n(w_2,1)$ 的 $P (-)$ 概率大， $n(w_2,2))$ 的 $P (-)$ 概率大， $n(w_2,3)$ 的 $P (+)$ 概率大。

目标就是找到合适的所有节点的词向量和所有内部节点 $\theta$ , 使训练样本达到最大似然。那么如何达到最大似然呢？

5.2 梯度计算

使用最大似然法来寻找所有节点的词向量和所有内部节点 $\theta$ 。先拿上面的 $w_2$ 例子来看，我们期望最大化下面的似然函数：
$\prod_{i=1}^3P(n(w_i),i) = (1- \frac{1}{1+e^{-x_w^T\theta_1}})(1- \frac{1}{1+e^{-x_w^T\theta_2}})\frac{1}{1+e^{-x_w^T\theta_3}}$
对于所有的训练样本，我们期望最大化所有样本的似然函数乘积。

为了方便，我们定义：

输入的词为 $w$ ,其从输入层词向量求和平均后的霍夫曼树根节点词向量为 $x_w$ , 从根节点到 $w$ 所在的叶子节点，包含的节点总数为 $l_w$ ,
$w$ 在霍夫曼树中从根节点开始，经过的第 $i$ 个节点表示为 $p^w_i$ ,对应的霍夫曼编码为 $d^w_i\in \{0,1\}$ ,其中 $i=2,3,...l_w$ 。而该节点对应的模型参数表示为 $\theta^w_i$ , 其中 $i=1,2,...l_{w−1}$ ，没有 $i=l_w$ 是因为模型参数仅仅针对于霍夫曼树的内部节点。

定义 $w$ 经过的霍夫曼树某一个节点 $j$ 的逻辑回归概率为 $P(d_j^w|x_w, \theta_{j-1}^w)$ ，其表达式为：
$P(d_j^w|x_w, \theta_{j-1}^w)= \begin{cases} \sigma(x_w^T\theta_{j-1}^w)& {d_j^w=0}\\[2ex] 1- \sigma(x_w^T\theta_{j-1}^w) & {d_j^w = 1} \end{cases}$
那么对于某一个目标输出词 $w$ ,其最大似然为：
$\prod_{j=2}^{l_w}P(d_j^w|x_w, \theta_{j-1}^w) = \prod_{j=2}^{l_w} [\sigma(x_w^T\theta_{j-1}^w)] ^{1-d_j^w}[1-\sigma(x_w^T\theta_{j-1}^w)]^{d_j^w}$
在word2vec中，由于使用的是随机梯度上升法，所以并没有把所有样本的似然乘起来得到真正的训练集最大似然，仅仅每次只用一个样本更新梯度，这样做的目的是减少梯度计算量。这样我们可以得到 $w$ 的对数似然函数 $L$ 如下：
$\prod_{j=2}^{l_w}P(d_j^w|x_w, \theta_{j-1}^w) = \sum\limits_{j=2}^{l_w} \left((1-d_j^w) log \left[\sigma(x_w^T\theta_{j-1}^w)\right] + d_j^w log\left[1-\sigma(x_w^T\theta_{j-1}^w)\right]\right)$
要得到模型中 $w$ 词向量和内部节点的模型参数 $\theta$ , 使用梯度上升法即可。首先我们求模型参数 $\theta^w_{j-1}$ 的梯度：
$\begin{align} \frac{\partial L}{\partial \theta_{j-1}^w} & = (1-d_j^w)\frac{(\sigma(x_w^T\theta_{j-1}^w)(1-\sigma(x_w^T\theta_{j-1}^w)}{\sigma(x_w^T\theta_{j-1}^w)}x_w - d_j^w \frac{(\sigma(x_w^T\theta_{j-1}^w)(1-\sigma(x_w^T\theta_{j-1}^w)}{1- \sigma(x_w^T\theta_{j-1}^w)}x_w \\[3ex] & = (1-d_j^w)(1-\sigma(x_w^T\theta_{j-1}^w))x_w - d_j^w\sigma(x_w^T\theta_{j-1}^w)x_w \\[2ex] & = (1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))x_w \end{align}$
$\theta^w_{j-1}$ 的更新公式为：
$\theta^w_{j-1}:=\theta^w_{j-1}+\eta\left[1-d_j^w-\sigma(x_w^T\theta_{j-1}^w)\right]x_w$
$\eta$ 表示学习率。

同样的方法，可以求出 $x_w$ 的梯度表达式如下：
$\frac{\partial L}{\partial x_w} = \sum\limits_{j=2}^{l_w}(1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))\theta_{j-1}^w$
有了梯度表达式，我们就可以用梯度上升法进行迭代来一步步的求解我们需要的所有的 $\theta^w_{j-1}$ 和 $x_w$ 。

5.3 基于Hierarchical Softmax的CBOW模型

CBOW模型(上下文词预测当前词)的网络结构，包括三层：输入层、投影层和输出层。

定义词向量的维度大小 $M$ ，以及CBOW的上下文大小 $2 c$ ，这样对于训练样本中的每一个词，其前面的 $c$ 个词和后面的 $c$ 个词作为了CBOW模型的输入,该词本身作为样本的输出，期望softmax概率最大。

首先需要先将词汇表建立成一颗霍夫曼树。

输入层：包含上下文中 $2 c$ 个词的词向量
投影层：将输入层的 $2 c$ 个两个做求和积累
$x_w = \frac{1}{2c}\sum\limits_{i=1}^{2c}x_i$
输出层：对应一棵二叉树(Huffman树)，由语料库中出现过的词当作叶子结点，各个词的频率当作权值构建的一棵Huffman树。(叶子结点的个数： $N$ (词典的所有词)，非叶子结点： $N - 1$ )。

构建完Huffman树之后，通过梯度上升法来更新的 $\theta^w_{j−1}$ 和 $x_w$ ，注意这里的 $x_w$ 是由 $2 c$ 个词向量相加而成，梯度更新完毕后会用梯度项直接更新原始的各个 $x_i(i=1,2,...,2c)$ ，即：
$\theta_{j-1}^w = \theta_{j-1}^w + \eta (1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))x_w\\[2ex] x_i= x_i +\eta \sum\limits_{j=2}^{l_w}(1-d_j^w-\sigma(x_w^T\theta_{j-1}^w))\theta_{j-1}^w \;(i =1,2..,2c)$
其中 $\eta$ 为梯度上升法的步长。

基于Hierarchical Softmax的CBOW模型算法流程，梯度迭代使用了随机梯度上升法：

输入：基于CBOW的语料训练样本，词向量的维度大小 $M$ ，CBOW的上下文大小 $2 c$ ,步长 $\eta$

输出：霍夫曼树的内部节点模型参数 $\theta$ ，所有的词向量 $w$

基于语料训练样本建立霍夫曼树。

随机初始化所有的模型参数 $\theta$ ，所有的词向量 $w$

进行梯度上升迭代过程，对于训练集中的每一个样本 $(context(w),w) 做如下处理：

a) $e = 0$ ，计算 $x_w= \frac{1}{2c}\sum\limits_{i=1}^{2c}x_i$

b) for $j = 2$ to $l_w$ :

$\sigma(x_w^T\theta_{j-1}^w)\\[2ex] g = (1-d_j^w-f)\eta\\[2ex] e = e + g\theta_{j-1}^w\\[2ex] \theta_{j-1}^w= \theta_{j-1}^w + gx_w$
c) 对于 $co n t e x t (w)$ 中的每一个词向量 $x_i$ (共 $2 c$ 个)进行更新：
$x_i = x_i + e$
d) 如果梯度收敛，则结束梯度迭代，否则回到步骤3继续迭代。

5.4 基于Hierarchical Softmax的Skip-Gram模型

Skip-Gram模型(当前词预测上下文词)的网络结构，包括三层：输入层、投影层和输出层。

定义词向量的维度大小 $M$ ，以及CBOW的上下文大小 $2 c$ ，对于训练样本中的每一个词，该词本身作为样本的输入，其前面的 $c$ 个词和后面的 $c$ 个词作为了Skip-Gram模型的输出，期望这些词的softmax概率比其他的词大。

首先需要先将词汇表建立成一颗霍夫曼树。

输入层：只包含当前样本的中心词 $w$ 的词向量 $\bold v(w)$
投影层：将 $\bold v(w)$ 投影到 $\bold v(w)$ ，投影层是多余的
输出层：对应一棵二叉树(Huffman树)，由语料库中出现过的词当作叶子结点，各个词的频率当作权值构建的一棵Huffman树。(叶子结点的个数： $N$ (词典的所有词)，非叶子结点： $N - 1$ )。

构建完Huffman树之后，通过梯度上升法来更新我们的 $\theta^w_{j−1}$ 和 $x_w$ ，注意这里的 $x_w$ 周围有 $2 c$ 个词向量，此时期望 $P(x_i|x_w),i=1,2...2c$ 最大。由于上下文是相互的，在期望 $P(x_i|x_w),i=1,2...2c$ 最大化的同时，反过来也期望 $P(x_w|x_i),i=1,2...2c$ 最大。那么是使用 $P(x_i|x_w))$ 好还是 $P(x_w|x_i)$ 好？

word2vec使用了后者，好处就是在一个迭代窗口内，不是只更新 $x_w$ 一个词，而是 $x_i\ (i=1,2...2c\ )$ 共 $2 c$ 个词。这样整体的迭代会更加的均衡。因此，Skip-Gram模型并没有和CBOW模型一样对输入进行迭代更新，而是对 $2 c$ 个输出进行迭代更新。

基于Hierarchical Softmax的Skip-Gram模型算法流程，梯度迭代使用了随机梯度上升法：

输入：基于 Skip-Gram 的语料训练样本，词向量的维度大小 $M$ ， Skip-Gram 的上下文大小 $2 c$ ,步长 $\eta$

输出：霍夫曼树的内部节点模型参数 $\theta$ ，所有的词向量 $w$

基于语料训练样本建立霍夫曼树。

随机初始化所有的模型参数 $\theta$ ，所有的词向量 $w$

进行梯度上升迭代过程，对于训练集中的每一个样本 $(co n t e x t (w), w)$ 做如下处理：

a) for $i = 1$ to $2 c$ :

i) $e = 0$

ii) for $j = 2$ to $l_w$ :

$\sigma(x_w^T\theta_{j-1}^w)\\[2ex] g = (1-d_j^w-f)\eta\\[2ex] e = e + g\theta_{j-1}^w\\[2ex] \theta_{j-1}^w= \theta_{j-1}^w + gx_w$

iii)
$x_i = x_i + e$
b) 如果梯度收敛，则结束梯度迭代，否则回到步骤a继续迭代。

5.5.举个栗子

假设2014年世界杯期间，从新浪微博中抓取了若干条与足球相关的微博，经统计，“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这个六个词出现的次数分别为15，8，6，5，3，1。这6个词的Huffman编码，其中约定(词频大的)左孩子结点编码为1，(词频较小)右孩子结点编码为0。“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这个六个词的Huffman编码为：0,111,110,101,1001,1000。

现在考虑词 $w = " 足球 "$ 的情形。

从根结点到足球结点由4条红色边串起来的5个结点构成路径 $p^w$ ，其路径长度 $l_w=5$
路径 $p^w$ 上的5个结点分别为： $p^w_1,p^w_2,p^w_3,p^w_4,p^w_5$ ，其中 $p^w_1$ 对应根结点
$d^w_2,d^w_3,d^w_4,d^w_5$ 分别为 $1, 0, 0, 1$ ，即足球的Huffman编码为 $1001$
$\theta_1,\theta_2,\theta_3,\theta_4$ 分别表示路径 $p^w$ 上4个非叶子结点对应的向量

从根结点到“足球”叶子结点，中间经过了4个分支(每条红色的边对应一次分支)，而每一次分支可以视为一次二分类。Huffman编码为1的结点定义为负类，编码为0的结点定义为正类(这只是一个约定)。

对于从根结点到“足球”叶子结点，经过了4次二分类，每次分类的结果的概率如下：

第1次： $p(d^w_2|x_w,\theta^w_1)=1-\sigma(x^T_w\theta^w_1)$
第2次： $p(d^w_3|x_w,\theta^w_2)=\sigma(x^T_w\theta^w_2)$
第3次： $p(d^w_4|x_w,\theta^w_3)=\sigma(x^T_w\theta^w_3)$
第4次： $p(d^w_5|x_w,\theta^w_4)=1-\sigma(x^T_w\theta^w_4)$

所以要求的 $p (足球 ∣ C o n t e x t (足球))$ 等于上述4个概率的乘积
$p(足球|Context(足球))=\prod\limits^5\limits_2p(d^w_j|x_w,\theta^w_{j-1})$

5.6 分层softmax(Hierachical Softmax)思想

Hierachical Softmax的基本思想就是首先将词典中的每个词按照词频大小构建出一棵Huffman树，保证词频较大的词处于相对比较浅的层，词频较低的词相应的处于Huffman树较深层的叶子节点，每一个词都处于这棵Huffman树上的某个叶子节点。

Hierachical Softmax 将原本的一个 $∣ V ∣$ 分类问题变成了 $l o g ∣ V ∣$ 次的二分类问题。
原先要计算 $P(w_t|c_t)$ 的时候，因为使用的是普通的softmax，势必要求词典中的每一个词的概率大小，那么如何减少计算量呢？
计算当前词 $w_t$ 在其上下文中的概率大小，只需要把它变成在Huffman树中的路径预测问题就可以了，因为当前词 $w_t$ 在Huffman树中对应到一条路径，这条路径由这棵二叉树中从根节点开始，经过一系列中间的父节点，最终到达当前这个词的叶子节点而组成，那么在每一个父节点上，都对应的是一个二分类问题（本质上就是一个LR分类器），而Huffman树的构造过程保证了树的深度为 $l o g ∣ V ∣$ ，所以也就只需要做 $l o g ∣ V ∣$ 次二分类便可以求得 $P(w_t|c_t)$ 的大小。
层次化softmax改变了原来的模型结构。
原来是 $1 * V$ (输入one-hot)，经过 $V * D$ 的矩阵(input-embedding) ，再经过 $D * V$ 矩阵(output-embedding)，即一系列矩阵乘法 $(1, V) * (V, D) * (D, V) = (1, V)$ 【其中的第一次乘法，一般用查表的方式直接读取，不用相乘】,再softmax，得到目标词是词典中每个词的概率。
使用层次化softmax时，output-embedding被取消了，查表后直接用(1,D)的向量与每个中间路径节点对应的一个向量 $γ_n$ 【形状为 $(D, 1)$ 】，进行相乘，得到一个scalar，再经过sigmoid，转为一个0到1之间的小数，此数从就是从树（树是二叉树，树的每个叶子节点都对应一个单词）的根节点到某个叶子节点的路径上每次在中间节点选择向左(也可定为向右)走的概率。

路径上每条边的概率进行连乘，就是从根节点到叶子节点的总的概率，也就是模型的预测值为该叶子节点（目标单词）的概率。层次化softmax的目标函数就是最大化目标词的路径概率，换句话说，我们只需要关注目标词的路径概率即可，而目标词是已知的，完全不需要计算其他的词的路径概率。这点是后续优化措施的关键。

5.7 思考

1.层次化softmax的优点体现在哪里？

计算预测输出值为每个单词的概率时，由于概率是从根节点到叶子节点的路径上的边进行连乘，也就是计算量与目标词（叶子节点）的路径长度成正比，原来的softmax的目标函数在反向传播时需要求导，而求导时，由于分母是e的指数的累加和，导致必须算出所有单词的概率，计算量是与词表大小V成正比。

2.层次化softmax的树是二叉树，路径长度也就是树的高度，假设是满二叉树，则树高= $V$ 取2为底的对数值，远远小于 $V$ ，节省了很多计算过程。比如一个大小为 $1024$ 的词典，原来softmax是 $1024$ 个e的指数计算，现在是 $l o g 1024 = 10$ 次sigmoid值再连乘，共节省了 $1024 - 10 = 1014$ 次计算。是否还可以进一步优化？

可以。以上表述中层次化的softmax用到的树，一般认为是满的二叉树，也就是树的高度为 $l o g V$ ，其实还有优化的空间。因为目标词的概率仅与根节点到目标词的路径长度有关，如果我们能够优化根节点到目标词的路径长度，就可以进一步节省计算。什么二叉树的根节点到叶子节点的路径长度最短？答案是哈夫曼树。构建哈夫曼树时，比较节点的权重大小是依据该节点(也就是单词)的词频，词频大的放在离根节点近的地方，词频小的远离根节点。如此词频大的词只需要很少的比较次数，路径就结束了，计算次数比较少。

6.基于Negative Sampling的模型

6.1 背景

使用霍夫曼树来代替传统的神经网络，可以提高模型训练的效率。但是如果我们的训练样本里的中心词 $w$ 是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一棵霍夫曼树，将模型变的更加简单呢？

Negative Sampling就是这么一种求解word2vec模型的方法，它摒弃了霍夫曼树，采用了Negative Sampling(负采样)的方法来求解。

6.2 审视训练过程

对于文本“”Thou shalt not make a machine in the likeness of a human mind“而言：如何使用它来训练一个能预测相邻词汇的自然语言模型。

构造样本，假设窗口大小=5

训练过程，用not预测thou
将特征输入到未经训练的模型，让它预测一个可能的相邻单词。该模型会执行三个步骤并输入预测向量(对应于单词表中每个单词的概率)。由于模型未经训练，该阶段的预测肯定是错误的。
- 预测结果

如上图一样，预测结果极度不靠谱，not本该预测thou，但其却将 $0.4$ 的概率预测成了taco，预测错了，如何解决？计算损失loss，利用梯度

误差计算

现在误差向量可以被用于更新模型了，所以在下一轮预测中，如果用not作为输入，我们更有可能得到thou作为输出了。接下来继续对数据集内下一份样本进行同样的操作，直到遍历所有的样本。这就是一轮(epoch)了。我们再多做几轮(epoch)，得到训练过的模型，于是就可以从中提取嵌入矩阵来用于其他应用了。

如果按照上述训练方法，则not是不是要把整个词表的所有的都要预测一遍？

6.3 理解负采样的过程

回想一下这个神经语言模型计算预测值的三个步骤：

从计算的角度来看，第三步非常昂贵 - 尤其是当我们将需要在数据集中为每个训练样本都做一遍（很容易就多达数千万次）。我们需要寻找一些提高表现的方法。

一种方法是将目标分为两个步骤：

1.生成高质量的词嵌入（不要担心下一个单词预测）。

2.使用这些高质量的嵌入来训练语言模型（进行下一个单词预测）。

在本文中我们将专注于第1步（因为这篇文章专注于嵌入）。要使用高性能模型生成高质量嵌入，我们可以改变一下预测相邻单词这一任务：

将其切换到一个提取输入与输出单词的模型，并输出一个表明它们是否是邻居的分数（0表示“不是邻居”，1表示“邻居”）。

比如有一个训练样本，中心词是 $w$ ，它周围上下文共有 $2 c$ 个词，记为 $co n t e x t (w)$ 。由于这个中心词 $w$ 的确和 $co n t e x t (w)$ 相关存在，因此它是一个真实的正例。通过Negative Sampling采样，得到neg个和 $w$ 不同的词 $w_i,i=1,2,..neg$ ，这样 $co n t e x t (w)$ 和 $w_i$ 就组成了neg个并不真实存在的负例作为负例。利用这一个正例和neg个负例，进行二元逻辑回归，得到负采样对应每个词 $w_i$ 对应的模型参数 $\theta_i$ ，和每个词的词向量。

对于上述问题，那么负采样的样本如何获取？ 从词汇表中随机抽取单词就可以了

训练流程：

在训练过程开始之前，预先处理正在训练模型的文本。确定词典的大小(vocab_size，比如说10,000)以及哪些词被它包含在内。

在训练阶段的开始，创建两个矩阵——Embedding矩阵和Context矩阵。

在训练过程开始时，用 “随机值初始化” 这些矩阵。开始训练过程。在每个训练步骤中，采取一个相邻的例子及其相关的非相邻例子。

输入单词not和输出/上下文单词: thou(实际邻居词)，aaron和taco(负面例子)。
对于输入词，查看Embedding矩阵。对于上下文单词，查看Context矩阵

计算输入嵌入与每个上下文嵌入的点积。在每种情况下，结果都将是表示输入和上下文嵌入的相似性的数字。计算误差，使用梯度下降法更新参数。

6.4 负采样中的梯度计算

Negative Sampling也是采用了二元逻辑回归来求解模型参数，通过负采样得到了neg个负例 $context(w),w_i)i=1,2,..neg$ 为了统一描述将正例定义为 $w_0$ 。

在逻辑回归中，正例应该期望满足： $P(context(w_0), w_i) = \sigma(x_{w_0}^T\theta_{w_i}) ,y_i=1, i=0$

负例期望满足： $P(context(w_0), w_i) =1- \sigma(x_{w_0}^T\theta_{w_i}), y_i = 0, i=1,2,..neg$

期望可以最大化： $\prod\limits_{i=0}\limits^{neg}P(context(w_0), w_i) = \sigma(x_{w_0}^T\theta_{w_0})\prod\limits_{i=1}\limits^{neg}(1- \sigma(x_{w_0}^T\theta_{w_i}))$

似然函数为： $\prod\limits_{i=0}\limits^{neg} \sigma(x_{w_0}^T\theta_{w_i})^{y_i}(1- \sigma(x_{w_0}^T\theta_{w_i}))^{1-y_i}$

对数似然： $\sum\limits_{i=0}^{neg}y_i log(\sigma(x_{w_0}^T\theta_{w_i})) + (1-y_i) log(1- \sigma(x_{w_0}^T\theta_{w_i}))$

梯度上升法来更新我们的 $\theta_{w_i}$ 和 $x_{wi},i=0,1,..neg$ ，分别求解梯度：
$\begin{align} \frac{\partial L}{\partial \theta_{w_i} } &= y_i(1- \sigma(x_{w_0}^T\theta_{w_i}))x_{w_0}-(1-y_i)\sigma(x_{w_0}^T\theta_{w_i})x_{w_0} \\[2ex] & = (y_i -\sigma(x_{w_0}^T\theta_{w_i})) x_{w_0} \\[4ex] \frac{\partial L}{\partial x_{w_0} } &= \sum\limits_{i=0}^{neg}(y_i -\sigma(x_{w_0}^T\theta_{w_i}))\theta_{w_i} \end{align}$

6.5 负采样的方法

如果词汇表的大小为 $V$ ,那么将一段长度为1的线段分成 $V$ 份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短。每个词 $w$ 的线段长度由下式决定：
$\frac{count(w)}{\sum\limits_{u \in vocab} count(u)}$
在word2vec中，分子和分母都取了 $3/4$ 次幂如下：
$\frac{count(w)^{3/4}}{\sum\limits_{u \in vocab} count(u)^{3/4}}$
在采样前，将这段长度为1的线段划分成 $M$ 等份，这里 $M >> V$ ，这样可以保证每个词对应的线段都会划分成对应的小块。而 $M$ 份中的每一份都会落在某一个词对应的线段上。在采样的时候，我们只需要从 $M$ 个位置中采样出 $n e g$ 个位置就行，此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。

在word2vec中， $M$ 取值默认为 $10^8$ 。

总的来说：非等距切分+等距切分

6.5负采样的技巧点

例如：选定句子 “The quick brown fox jumps over lazy dog” ，设定窗口大小为2 ( $window\_size=2$ ) 选输入词前后各两个词和输入词进行组合。下图中，蓝色代表input word，方框内代表位于窗口内的单词。

对高频词进行抽样

但是对于“the”这种常用高频单词，这样的处理方式会存在下面两个问题：

当我们得到成对的单词训练样本时，(“fox”, “the”) 这样的训练样本并不会给我们提供关于“fox”更多的语义信息，因为“the”在每个单词的上下文中几乎都会出现。
由于在文本中“the”这样的常用词出现概率很大，因此我们将会有大量的（”the“，…）这样的训练样本，而这些样本数量远远超过了我们学习“the”这个词向量所需的训练样本数。

Word2Vec通过“抽样”模式来解决这种高频词问题。它的基本思想如下：对于在训练原始文本中遇到的每一个单词，它们都有一定概率从文本中被删掉，而这个被删除的概率与单词的频率有关。

如果设置窗口大小 $s p an = 10$ ，并且从文本中删除所有的“the”，那么会有下面的结果：

由于删除了文本中所有的“the”，那么在训练样本中，“the”这个词永远不会出现在上下文窗口中。
当“the”作为input word时，训练样本数至少会减少10个。

Q：如何选择抽样率呢？

word2vec的C语言代码实现了一个计算在词汇表中保留某个词概率的公式。
$P(w_i)=(\sqrt{\frac{Z(w_i)}{0.001}}+1)×\frac{0.001}{Z(w_i)}$
$P(w_i)$ 表示某个单词被保留的概率。 $w_i$ 是一个单词， $Z_(w_i)$ 是 $w_i$ 这个单词在所有语料中出现的频次。

举个栗子：如果单词“peanut”在10亿规模大小的语料库中出现了1000次，则有 $Z (" p e an u t ") = 1000/1000000000 = 1 e - 6$

在代码中还有一个参数叫“sample”，这个参数代表一个阈值，默认值为0.001 （在gensim包中的Word2Vec类说明中，这个参数默认为0.001，文档中对这个参数的解释为“ threshold for configuring which higher-frequency words are randomly downsampled”）。这个值越小意味着这个单词被保留下来的概率越小(即有越大的概率被我们删除)。

6.6 负采样的思想

负采样每遍历到一个目标词，为了使得目标词的概率 $P(w_t|c_t)$ 最大，根据softmax函数的概率公式，也就是让分子中的 $e′(w_t)^Tx$ 最大，而分母中其他非目标词的 $e′(w_i)^Tx$ 最小，普通softmax的计算量太大就是因为它把词典中所有其他非目标词都当做负例了，而负采样的思想特别简单，就是每次按照一定概率随机采样一些词当做负例，从而就只需要计算这些负采样出来的负例了，那么概率公式便相应变为:
$P(w_t|c_t)=\frac{exp(e´(w_t)^T)x}{\sum\limits_{i=1}\limits^Kexp(e´(w_i)^T)x}, \quad x=\sum\limits_{i \in c}e(w_i)$
仔细和普通softmax进行比较便会发现，将原来的|V|分类问题变成了K分类问题，这便把词典大小对时间复杂度的影响变成了一个常数项，而改动又非常的微小，不可谓不巧妙。

7.word2vec的好处

不同于one_hot这种暴力映射，无法衡量字词的语义空间距离。Word2vec采用的是低维稠密矩阵去表征字词的语义关系。

降低维度，解决稀疏性
相似性(衡量词与词之间的距离远近关系)
泛化能力更强

对于泛化能力的理解：假设现有四个特征值woman girl man boy，经过onet-hot编码之后得到

[1,0,0,0]–>woman [0,1,0,0]–>girl 每个特征之间是独立的，放进网络里训练彼此之间是没有任何关系的。如果将特征进行embedding操作为2维度:[性别，年龄]==> 女 40(通过性别和年龄能学习出woman)—>woman 可以学习出泛化性。

8.总结

统计语言模型就是用来计算一个句子的概率的概率模型(N-gram方式计算)
神经语言模=Embedding层+前馈神经网络
word2vec主要有两种实现方式
- Skip-gram：输入一个词 $x$ ，预测它的上下文的词
- CBOW：通过上下文的词，去预测当前的词
word2vec本质上学习词与词之间的共现关系
hierarchical softmax：本质是把 N 分类问题变成 log(N)次二分类
negative sampling：本质是预测总体类别的一个子集
Word2vec学习的参数是两个矩阵(每一个行是一个词向量)
embedding矩阵有两个矩阵，可以取第一个或者把二者相加做平均做真正的词向量w

本文仅仅作为个人学习记录所用，不作为商业用途，谢谢理解。

参考：

1.https://zhuanlan.zhihu.com/p/88874759

2.https://www.cnblogs.com/peghoty/p/3857839.html

3.https://www.cnblogs.com/pinard/p/7160330.html

你可能感兴趣的:(推荐系统,推荐算法,word2vec,机器学习,人工智能)

AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23