愤怒的可乐

word2vec背后的数学原理+从零开始纯Python实现(下)

引言

在上篇文章中我们了解到了word2vec中CBOW和Skip-Gram的原理，有一个主要的问题是计算量太大了。想象一下百万级别的词汇量，那个softmax需要计算百万次。

本文就来介绍两种优化方法，分别是层次Softmax(Hierarchical softmax)和负采样(Negative Sampling)。

Hierarchical softmax

在介绍这种方法之前，我们来回顾一下数据结构中的哈弗曼树。

给定N个权值作为N个叶子结点，构造一棵二叉树，若该树的带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树，权值较大的结点离根较近。

下面来看一下哈夫曼树的构造，假设有n个权值，则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 $w_1$ 、 $w_2$ 、…、 $w_n$ ，则哈夫曼树的构造规则为：

将 $w_1,w_2,\cdots,w_n$ 看成是有n颗树的森林(每颗树仅有一个结点)
在森林中选出两个根结点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和；
从森林中删除选取的两棵树，并将新树加入森林
重复(2)、(3)步，直到森林中只剩一棵树为止，该树即为所求得的哈夫曼树。

哈弗曼树有什么好处呢，一般可用于哈夫曼编码。比如约定左子树编码为0，右子树编码为1。由于权重高的叶子节点越靠近根节点，权重低的叶子节点则远离根节点，这样权重高的节点编码值较短，权重低的节点编码值较长，这可以保证树的带权路径最短。

用到word2vec中就是出现频次高的单词计算其分布概率可以更快。

Hierarchical softmax使用二叉树(哈夫曼树)来表示词典中的单词。这颗树的叶子节点表示词典中的每个单词，所以总共有 $V$ 个叶子节点。并且有 $V - 1$ 个内部节点。对于每个叶子节点，都能通过一条唯一的从根节点开始的路径到达，这条路径就用来计算叶子节点所表示单词的概率。并且这个概率是已经标准化了的，也就是这颗哈夫曼树的所有叶子节点概率之和为1。

如上图所示，白色节点代表单词，黑色节点是非叶子节点。比如要计算单词 $w_2$ 的概率，上图给出了唯一的一条路径，该条路径的长度 $L(w_2)=4$ ， $n (w, j)$ 表示从根节点到单词 $w$ 所在节点的第 $j$ 个节点。

在Hierarchical softmax模型中，每个(共有 $V - 1$ 个)内部节点有一个输出向量 $v^\prime_n(w,j)$ 。然后单词作为输出单词的概率被定义为：

$p(w=w_O) = \prod_{j=1}^{L(W)-1} \sigma \left(I(n(w,j+1) = ch(n(w,j)) \cdot {v^\prime_{n(w,j)}}^T h \right) \tag{1}$

其中 $c h (n)$ 是节点 $n$ 的 $\color{red}{左孩子}$ ； $v^\prime_{n(w,j)}$ 是内部节点 $n (w, j)$ 的输出向量； $h$ 是隐藏层的输出值； $I (x)$ 是指数函数，当 $x$ 为True的时候，输出为1，输入为False的时候，输出为0。

看起来很复杂，其实很简单。我们看上图，假设我们想要计算单词 $w_2$ 作为输出词的概率，我们把这个概率定义为从根节点到叶子节点 $w_2$ 的概率。在每个内部节点上(包括根节点)，我们需要设定向左或向右走的概率。定义在内部节点 $n$ 处向左走的概率为：

$\sigma \left({v^\prime_n}^T \cdot h \right) \tag{2}$

我们知道，sigmoid函数的取值是 $[0, 1]$ ，因此作为概率是再合适不过了。而它的函数值是由内部节点( $v^\prime_n$ )和隐藏层的输出值决定的。那么向右走的概率就为：

$\sigma \left({v^\prime_n}^T \cdot h \right) = \sigma(-v{^\prime_n}^T \cdot h)\tag{3}$

$\sigma(x) = 1 - \frac{1}{1+e^{-x}} = \frac{e^{-x}}{1 + e^{-x}} = \frac{1}{1+e^x} = \sigma(-x)$

那么如何验证从根节点到 $w_2$ 的路径计算 $w_2$ 作为输出词的概率呢？请看下面的公式：

$p(w_2=w_O) = p(n(w_2,1),left) \cdot p(n(w_2,2),left) \cdot p(n(w_2,3),right) \\ = \sigma({v^\prime_n(w_2,1)}^T h) \cdot \sigma({v^\prime_n(w_2,2)}^T h) \cdot \sigma(- {v^\prime_n(w_2,3)}^T h)$

就是由公式 $(1)$ 得到的。

在内部节点处, 向左向右的概率和为1, 一直分裂下去,最后的和还是1. 因此可以很容易得到:

$\sum_{i=1}^V p(w_i=w_O) = 1$

这样使得Hierarchical softmax输出层也是一个所有单词的概率多项分布。

下面开始反向传播的训练过程。为了简单起见，我们先看一个上下文单词模型(one-word context model)，后面扩展到CBOW和Skip-Gram是很容易的。

为了简化符号，用 $[I]$ 表示下面的指示函数式子：
$\left(n(w,j+1) = ch(n(w,j)\right)$

用 $v^\prime$ 表示 $v^\prime_{n_{w,j}}$

那么，对于每个训练数据，损失函数定义为：

$\log p(w = w_O|w_I) = - \sum_{j=1}^{L(w) - 1} \log \sigma([I] {v^\prime_j}^T h) \tag{4}$

下面先求 $E$ 对 $v^\prime_j h$ 的梯度

之前的文章推导过, $\sigma(x)^\prime = \sigma(x)(1 - \sigma(x))$

$\begin{aligned} \frac{\partial E}{\partial v^\prime_j h} &= - \frac{\sigma([I] {v^\prime_j}^T h)(1 - \sigma([I] {v^\prime_j}^T h))}{\sigma([I] {v^\prime_j}^T h)}(- [I]) \\&= \left(\sigma([I] {v^\prime_j}^T h) - 1 \right) [I] \\ &= \begin{cases} \sigma({v^\prime_j}^T h) -1 & \text{if } [I] = 1 \\ \sigma({v^\prime_j}^T h) & \text{if } [I] = -1 \end{cases} \\ &= \sigma({v^\prime_j}^T h) - t_j \end{aligned}$

上面用到了公式 $(3)$ ，其中当 $[I] = 1$ 时, $t_j=1$ ；否则 $t_j=0$ 。

这个公式与前面的 $y_j−t_j$ 很像, 可以理解为预测值与真实值之差。

下面就可以求出内部节点 $n (w, j)$ 的向量 $v^′_j$ 的梯度了。

$\frac{\partial E}{\partial v^′_j} = \frac{\partial E}{\partial v^′_j h} \cdot \frac{\partial v^′_j h}{\partial v^′_j} = \left(\sigma({v^\prime_j}^T h) - t_j \right)\cdot h$

现在就可以得到 $v^′_j$ 的更新公式:

$v^′_j = v^′_j - \eta \left(\sigma({v^\prime_j}^T h) - t_j \right)\cdot h \,\,\, j = 1,2,\cdots,L(w) -1 \tag{5}$

这个公式既能用在CBOW模型中，又能用在Skip-Gram模型中。当用后者的时候，我们需要在C个上下文单词中重复这个过程。

为了对输入层到隐藏层的权重进行更新，我们对 $h$ 求梯度：

$\frac{\partial E}{\partial h} = \sum_{j=1}^{L(w) - 1} \frac{\partial E}{\partial v^\prime_j h} \cdot \frac{\partial v_j^\prime h}{\partial h} \\ = \sum_{j=1}^{L(w) - 1} \left(\sigma({v^\prime_j}^T h) - t_j \right)\cdot v_j^\prime := EH \tag{6}$

和之前的公式一样，如果是CBOW模型代入下面的式子就可以进行反向传播更新了：

$v_{w_I,c} = v_{w_I,c} - \frac{1}{C} \cdot \eta \cdot EH^T \,\,\,\, for\, c=1,2,\cdots,C \tag{7}$

如果是Skip-gram模型，由于输入只有一个单词，需要计算每个上下文单词的 $E H$ 值，并求和。然后代入下式更新输入单词的向量即可：
$v_{w_I} = v_{w_I} - \eta \cdot EH^T$

从更新公式可以看到，隐层到输出层的计算量从 $O (V)$ , 利用哈夫曼树降为了 $O(\log V)$ 。

Negative Sampling

负采样的思想比层次Softmax更直接，也更简单。因为基于softmax，在使用梯度下降的时候，每个训练样本需要更新 $V$ 个向量。因此负采样只更新一小部分向量，而非全部 $V$ 个。

考虑单词-上下文词对 $(w, c)$ ，然后看这个单词对是否出现在训练数据集中。用 $p (D = 1 ∣ w, c)$ 表示 $(w, c)$ 出现语料库中的概率。相应地， $p (D = 0 ∣ w, c) = 1 - p (D = 1 ∣ w, c)$ 表示没有出现在语料库中的概率。

假设存在参数 $\theta$ 决定这个分布： $p(D=1|w,c;\theta)$ 。
我们现在的目标是找到参数 $\theta$ 使得所有出现在训练集中的词对概率最大化。

$\arg\,\max_\theta \prod_{(w,c) \in D} p(D=1|w,c;\theta)$

取对数就变成了

$\arg\,\max_\theta \sum_{(w,c) \in D} \log p(D=1|w,c;\theta)$

$p(D=1|w,c;\theta)$ 可通过softmax来表示：
$p(D=1|w,c;\theta) = \frac{1}{1 + e^{ -{v^{'}_{w_O}}^T h} }$

目标就可以写成：
$\arg\,\max_\theta \sum_{(w,c) \in D} \log \frac{1}{1 + e^{ -{v^{'}_{w_O}}^T h} } \tag{8}$

如果光这样的话，那么只要能找到一个 $\theta$ 使得所有的单词对 $(w, c)$ 的概率 $p(D=1|w,c;\theta)=1$ ，就可以得到一个无效解。也就是只要让 $v^{'}_{w_O} = h$ 同时 $v^{'}_{w_O} \cdot h = K$ ，当 $K$ 足够大时( $K$ 只要超过了40)就能使 $p(D=1|w,c;\theta)=1$ 。

所以我们需要一个机制能防止所有的向量都学到一样的值，一种方法是抑制一些 $w,c^{'})$ 的组合，就是碰到这些 $w,c^{'})$ 组合时， $p(D=1|w,c^{'};\theta)$ 的概率必须要很低。这些 $w,c^{'})$ 组合很好找，比如可以找不存在数据集中的 $w,c^{'})$ 。假设在我们的数据集中，中心词是 $w$ ,它的上下文共有 $2 C$ 个词。那么我们在上下文之外取某个词 $w^\prime$ ，它没有出现在任何 $w$ 的上下文中。那么 $(w,w^\prime)$ 就是一个我们要的组合，这种组合就是负样本。存在数据集中的单词-上下文词对 $(w, c)$ 就是正样本。

按照这种方式，我们可以生成一个随机的负样本词对集合 $D^\prime$ 。现在我们的目标是让正样本的概率( $p(D=1|w,c;\theta)$ )越大越好，让负样本的概率( $p(D=1|w,c^{'};\theta)$ )越小越好，或者说让负样本的 $p(D=0|w,c^{'};\theta)$ 越大越好。

$\begin{aligned} \arg\,\max_\theta \prod_{(w,c) \in D} p(D=1|w,c;\theta) \prod_{(w,c^{'}) \in D^{'}} p(D=0|w,c;\theta) &= \arg\,\max_\theta \prod_{(w,c) \in D} p(D=1|w,c;\theta) \prod_{(w,c^{'}) \in D^{'}} (1 - p(D=1|w,c;\theta)) \\ &= \arg\,\max_\theta \sum_{(w,c) \in D}\log p(D=1|w,c;\theta) + \sum_{(w,c^{'}) \in D^{'}}\log (1 - p(D=1|w,c;\theta)) \\ &= \arg\,\max_\theta \sum_{(w,c) \in D}\log \frac{1}{ 1 + e^{ -{v^{'}_{w_O}}^T h}} + \sum_{(w,c^{'}) \in D^{'}}\log (1 - \frac{1}{ 1 + e^{ -{v^{'}_{w_i}}^T h}}) \\ &= \arg\,\max_\theta \sum_{(w,c) \in D}\log \frac{1}{ 1 + e^{ -{v^{'}_{w_O}}^T h}} + \sum_{(w,c^{'}) \in D^{'}}\log (\frac{1}{ 1 + e^{ {v^{'}_{w_i}}^T h}}) \\ &= \arg\,\max_\theta \sum_{(w,c) \in D}\log \sigma({v^{'}_{w_O}}^T h) + \sum_{(w,c^{'}) \in D^{'}}\log \sigma(-{v^{'}_{w_i}}^T h) \tag{9} \\ \end{aligned}$

这里再次用到了 $\sigma(x) = \sigma(-x)$

最终这个式子基本上就等同于Mikolov et al在(4)中写的公式(4)了。

和Mikolov et al不同的是，这里用了所有的语料库 $\cup D^{'}$ ,而他们使用了一个正样本 $\in D$ 和 $k$ 个负样本 $(w,c^{'}) \in D^{'}$ ,如下面的公式：

$\log \sigma({v^{'}_{w_O}}^T h) + \sum_{w_j \in \mathcal{W_{neg}}} \log \sigma(-{v^{'}_{w_j}}^T h) \tag{10}$

Mikolov et al构建 $D^{'}$ 的时候，用了一种特殊的方法。
定义了一个noise distrubution 的 $P_n(w)$ ，

$P_n(w_i) = \frac{ f(w_i)^{3/4} }{ \sum_{j=0}^n f(w_j)^{3/4} } \tag{11}$

有点类似unigram模型， $f (w)$ 是单词 $w$ 出现的频次。某个词被选中的概率与它的频次有关，取0.75幂的好处是可以减小不同频次差异过大带来的影响，使得小频次的单词被采样的概率变大。

下面给出损失函数

$-\log \sigma({v^{'}_{w_O}}^T h) - \sum_{w_j \in \mathcal{W_{neg}}} \log \sigma(-{v^{'}_{w_j}}^T h) \tag{12}$

$w_O$ 是输出单词(正样本)； $v^{'}_{w_O}$ 是输出向量； $h$ 是隐藏层的输出值: $\frac{1}{C} sum_{c=1}^C v_{w_c}$ (CBOW模型)或 $h = v_{w_I}$ (skip-gram模型)； $\mathcal{W}_{neg} = \{ w_j | j=1,\cdots,K\}$ 是基于 $P_n(w)$ 采样的负样本。

有了损失函数，用梯度下降的方法更新 $v^{'}$ 即可。还是先看下对 ${v^{'}_{w_j}}^T h$ 的梯度，这里要区分正样本和负样本。

$\begin{aligned} \frac{\partial E}{\partial {v^{'}_{w_j}}^T h} &= \begin{cases} \sigma({v^\prime_{w_j}}^T h) -1 & \text{if } w_j = w_O \\ \sigma({v^\prime_{w_j}}^T h) & \text{if } w_j \in \mathcal{W}_{neg} \end{cases} \\ &= \sigma({v^\prime_{w_j}}^T h) - t_j \tag{13} \end{aligned}$

推导过程和对公式(4)下面的推导类似。
当 $w_j$ 是正样本时 $t_j=1$ ,否则 $t_j=0$ 。

下面对单词 $w_j$ 的输出向量 $v^\prime_{w_j}$ 求梯度：

$\frac{\partial E}{\partial v^\prime_{w_j}} = \frac{\partial E}{\partial {v^{'}_{w_j}}^T h}\cdot \frac{\partial {v^{'}_{w_j}}^T h}{\partial v^\prime_{w_j}} = \left( \sigma({v^\prime_{w_j}}^T h) - t_j \right)h$

这样就得到输出向量的更新式子：

$v^\prime_{w_j} = v^\prime_{w_j} -\eta \left( \sigma({v^\prime_{w_j}}^T h) - t_j \right)h \tag{14}$

这个和非负采样的更新公式看起来有点像，对于每个训练数据，我们只要更新 $w_j \in \{w_O\} \cup \mathcal{W_{neg}}$ 这么点向量，而非原始的 $V$ 个，大大降低了训练复杂度。

这个更新公式能同时应用到CBOW和skip-gram模型，在skip-gram模型中，每次只更新一个上下文单词向量。

最后求解对隐藏层的梯度：

$\begin{aligned} \frac{\partial E}{\partial h} &= \sum_{w_j \in \{w_O\} \cup \mathcal{W_{neg}}} \frac{\partial E}{\partial {v^\prime_{w_j}}^T h } \cdot \frac{\partial {v^{'}_{w_j}}^T h}{\partial h} \\ &= \sum_{w_j \in \{w_O\} \cup \mathcal{W_{neg}}} \left( \sigma({v^\prime_{w_j}}^T h) - t_j \right) v^{'}_{w_j} := EH \end{aligned}$

和之前的公式一样，如果是CBOW模型代入下面的式子就可以进行反向传播更新了：

$v_{w_I,c} = v_{w_I,c} - \frac{1}{C} \cdot \eta \cdot EH^T \,\,\,\, for\, c=1,2,\cdots,C$

通过上面的过程可以看到，对于输入层到隐层的矩阵 $W$ ,所有的输入向量都会更新，而对于隐层到输出层的矩阵 $W^{'}$ ，只更新了 $k$ 个负样本。这也是选择 $W$ 作为词向量原因。

参考

word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method
On word embeddings
word2vec Parameter Learning Explained
Distributed representations of words and phrases and their compositionality.

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
2022-10-10 幸福芳芳
10.10日觉察日记1.事件：开晨会员工来不齐，路远的请假，离得近的也请假，一律不批！2.感受：生气，气愤（情绪如何转化或使用）3.想法：1.今年已经很少开晨会了，非必要不会通知开会的，临近点了再打电话请假，又不是特别忙的季节，借口都会找～～2.不来的按公司标准执行负激励，待岗处理！我为你们负责，你们安全重要会议都不参加，自己都不为自己负责！以后有事也别找我！尤其是经销商老板，自己都不清楚自己用工
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
258-各位相加不胖二十斤不改名zz
给定一个非负整数num，反复将各个位上的数字相加，直到结果为一位数。输入:38输出:2解释:各位相加的过程为：3+8=11,1+1=2。由于2是一位数，所以返回2。最简单的方法就是递归了。进阶:你可以不使用循环或者递归，且在O(1)时间复杂度内解决这个问题吗？假如一个三位数'abc'，其值大小为s1=100*a+10*b+1*c，经过一次各位相加后，变为s2=a+b+c，减小的差值为(s1-s2)
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
Regular Expression 正则表达式 Aimyon_36 Data Development 正则表达式 redis 数据库
RegularExpression前言1.基本匹配2.元字符2.1点运算符.2.2字符集2.2.1否定字符集2.3重复次数2.3.1*号2.3.2+号2.3.3?号2.4{}号2.5(...)特征标群2.6|或运算符2.7转码特殊字符2.8锚点2.8.1^号2.8.2$号3.简写字符集4.零宽度断言（前后预查）4.1?=...正先行断言4.2?!...负先行断言4.3?Thefatcatsaton
李小珍嵩县焦点初级班二期坚持分享第8天2019.3.6 快乐的老黄牛
换一个角度思考－－没有一件事只有负面意义当我们遭遇困境时，往往将眼光集中在所失去或是不好的部分，殊不知，每件事的发生都是上天给我们的礼物，只是有的礼物包装得丑陋，不合你的意或是让你的情绪低落，感到挫败罢了。很多事情都不是我们看到，所听到的那样，换种角度去思维，去看事情，会见到不同或是较深层次的那样？
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
《对生命说是》读书笔记2021-5-27 Diana_58d9
静心技巧——换个视角看待问题。尝试一下这个实验，1坐在椅子上，允许自己全身心的沉浸在你最爱的问题当中，你知道头脑热爱咀嚼他们，记录当你被卷入问题时的感受。2站起来有意识地离开那张椅子，想象你现在离开了你的问题。缓缓的围绕椅子走一圈，从不同的角度看看你的问题。在房间中找一个远离问题的空间，开始仔细深入的看看这个问题，他是真实的还是你制造出来的，同样的状况对于其他人来说会是问题吗？3反复体会作战问题里
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
前端CSS面试常见题剑亦未配妥前端面试前端 css 面试
边界塌陷盒模型有两种：W3C盒模型和IE盒模型，区别在于宽度是否包含边框定义：同时给兄弟/父子盒模型设置上下边距，理论上边距值是两者之和，实际上不是注意：浮动和定位不会产生边界塌陷；只有块级元素垂直方向才会产生margin合并margin计算方案margin同为正负：取绝对值大的值一正一负：求和父子元素边界塌陷解决父元素可以通过调整padding处理；设置overflowhidden，触发BFC子
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
精力是碎片化时代的核心竞争力——精力管理介绍爱写作的harry
《掌控：开启不疲惫、不焦虑的人生》读书笔记精力是碎片化时代的核心竞争力精力包括身、心两个层面，包括体力、专注力和意志力等多个维度。在信息爆炸、全球化竞争的时代，谁的体力充沛，专注力和意志力更强，谁获胜的机会就更大。而要做到这些，不做精力管理，一切都是空谈。另外，人的精力是有限的，表现会有高低起伏，所以需要管理，需要规划使用。怎样才算做到了精力管理精力管理是指主动掌握自己的体力、专注力和意志力，让自
2020.8.22《掌控习惯》第二章《你的习惯如何塑造你的身份》(反之亦然) 青丫_
改变不良习惯具有挑战性的原因有两条:1.没有找到试图改变的东西2.我们试图以错误的方式改变我们的习惯本章内容重点讨论了第一条原因。首先我们来看看行为改变的三个层次结果的变化:你得到了什么流程的变化:你做了什么身份的变化:你的信仰我们在习惯养成方面犯的错误就是选错了我们试图改变的事情。我们许多人开始改变他们的习惯时，把注意力集中在他们想要达到的目标上。也就是说人们想达到什么样的目标——然后决定应该采
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

word2vec背后的数学原理+从零开始纯Python实现(下)

引言

Hierarchical softmax

Negative Sampling

参考

你可能感兴趣的:(人工智能,读书笔记,层次Softmax,负采样,word2vec公式推导)