刘亦菲的十八年椅子

论文阅读笔记-word2vec Parameter Learning Explained

论文学习笔记-word2vec Parameter Learning Explained

论文题目：word2vec Parameter Learning Explained

发表作者：Xin Rong

发表时间：2016

参考：

《参考文章》

《参考文章》

文章目录

论文学习笔记-word2vec Parameter Learning Explained
- 1简单介绍
- 2Continuous Bag-of-Word Model
- - 2.1 One-word context
  - - Update equation for hidden→output weights
    - Update equation for input→hidden weights
  - 2.2 Multi-word context
- 3 Skip-Gram Model
- 4 Optimizing Computational Efficiency
- - 4.1 Hierarchical Softmax
  - 4.2 Negative Sampling
- 5总结

1简单介绍

word2vec，Google 2013年提出的用于计算词向量的工具。

word2vec 一词最初用来指程序或者工具，但是随着该词的流行，在某些语境下，也指神经网络的模型。

正确地说，CBOW 模型和 skip-gram 模型是 word2vec 中使用的两个神经网络。其中CBOW 模型（连续词袋模型）从多个单词（上下文）预测 1 个单词（目标词）；skip-gram模型（跳字模型）反过来从 1 个单词（目标词）预测多个单词（上下文）。

摘要部分：word2vec模型通过学习生成的词向量表示方法，能够携带句子的语义信息（semantic meanings），因此非常适用于多种NLP任务。该论文对word2vec模型的参数更新公式的进行了详细推导和解释，包括CBOW（continuous bag-of-word）模型和SG（skip-gram）模型，以及两个优化技术，包括hierarchical softmax 和 negative sampling。并且除了数学推导，该文还提供了梯度方程的直观解释。

2Continuous Bag-of-Word Model

2.1 One-word context

文章先从2013年提出的CBOW模型的最简单版本开始介绍—One-word context：

我们假定context（预测目标单词的上下文信息）只有一个单词，也就是说One-word context 模型是在只要一个上下文单词（one context word）的情况下来预测一个目标单词（one target word）的。

论文阅读笔记-word2vec Parameter Learning Explained_第1张图片

如图1描述的就是One-word context定义之下的神经网络模型。

这里我们假设文本词汇量的大小为V，隐藏层的大小为N，相邻层的神经元是全连接的。输入层是一个用one-hot方式编码的单词向量，其中只有一个为1，其余均为0。从输入层到隐藏层的权重值可以用一个V x W维的矩阵来表示：

论文阅读笔记-word2vec Parameter Learning Explained_第3张图片

其中W矩阵的每一行代表的是一个与输入层相关的单词的N维向量表示形式。

假设我们给定了一个输入单词（a context)，其单词向量的第k个元素，其余均为0，

从（1）我们可以看出，h向量完全是从W矩阵的第k行复制过来的（同均为N维向量）。

即为输入单词的一种向量表示（其实就是输入向量，后面会提到）

分析完输入层到隐藏层之后，我们再看隐藏层到输出层，同样连接权重用一个新的NxV矩阵来表示如下：

论文阅读笔记-word2vec Parameter Learning Explained_第4张图片

通过这些权重，我们可以为词表中的每一个单词都计算出一个得分：

论文阅读笔记-word2vec Parameter Learning Explained_第5张图片

其中是即为矩阵的第j列向量（也是N维向量，其实就是输出单词的输出向量，我们后面会提到）

经过以上讨论之后，我们可以使用一种对数-线性分类模型softmax函数来计算单词的后验分布（是多项式分布）：

（softmax函数将多个神经元的输出，映射到（0，1）区间内，可以看成概率来理解，使得所有概率之和为1）

其中，yj表示输出层第j个神经单元的输出值。将（1）式和（2）式代入（3）式我们可以得到：

注意：正如前文所述，是单词的两种向量表现形式。其中实际上是权重矩阵W的某一行向量，则是权重矩阵的某一列向量，我们将分别成为“输入向量（input vector）”和“输出向量（output vector）”（二者均为N维向量）。

Update equation for hidden→output weights

接下来让我们推导权重矩阵的更新公式，尽管在实际的计算过程中这样做是不切实际的（我们在之后再谈）

由以上描述可知，该模型训练的目标就是求公式（4）的最大值。

公式（4）代表的就是给定上下文信息（这里为一个单词）以及权重矩阵的情况下预测其实际输出单词（即上下文输出的中心词）的条件概率。

论文阅读笔记-word2vec Parameter Learning Explained_第6张图片

其中，为该模型的损失函数，我们需要找到它的最小值。为输出层实际输出单词的索引。

该损失函数可以理解为一种特殊情形下交叉熵的计算。

现在我们开始推导从隐藏层到输出层的权重矩阵在模型训练过程中的参数更新公式。

（1）首先我们对损失函数求关于得分的偏导数：

论文阅读笔记-word2vec Parameter Learning Explained_第7张图片

其中，当且仅当输出层的第j个神经元为真实输出单词的时，取值为1。

论文阅读笔记-word2vec Parameter Learning Explained_第8张图片

（2）接下来根据链式法则求出损失函数关于矩阵元素的偏导数为：

因此，采用梯度下降法（SGD)，我们最终得到了隐藏层到输出层权重更新公式如下：

其中大于0为参数更新的学习速率；；为隐藏层第i个神经元；为单词的输出向量。

由公式（11）我们可以看出：在更新权重参数的过程中，我们需要检查词汇表中的每一个单词，计算出它的输出概率，并与期望输出（只能取1或0）进行比较。

1如果（“overestimating”），那就从向量中减去隐藏向量h的一部分（例如），这样向量就会与相差更远。

2如果（“underestimating”），这种情况只有在= 1时，才会发生，此时，则将隐藏向量的一小部分加入，使与更接近。

3如果与非常接近，则此时由于

非常接近于0，故更新参数上基本没什么变化。

(前面说过，这里的是的第j个列向量，可以看作代表输出词的词向量；这里是输入词的词向量。)

Update equation for input→hidden weights

（1）我们继续对损失函数E求关于隐藏层的偏导数：

其中为隐藏层第i个神经元的输出；在公式（2）中已经定义，表示输出层第j个神经元的输入。为输出层第j个单词的预测误差。因此EH应该是一个N维向量，它的每一个元素代表的是词汇表中的每个单词的预测误差与在j=1到V上的乘积之和。

论文阅读笔记-word2vec Parameter Learning Explained_第9张图片

（2）因此对于权重矩阵W的每一个元素，我们求关于的偏导数，得到：

论文阅读笔记-word2vec Parameter Learning Explained_第10张图片

由此可以得到E对W的导数：

我们再次得到了一个V x N矩阵，由于X向量只有一个非0元素，因此只有一行是N维非0向量，因此矩阵W的更新公式为：

（其中是矩阵W中的其中一行，是唯一的上下文单词（context word）的“输入向量”，也是矩阵W的唯一的导数非0的行向量，除了以外，矩阵W的其他行向量在参数更新迭代过程中都会保持不变（因为其导数为0）

与矩阵的更新过程相似，对于公式（16），我们分析如下：

1如果过高地估计了某个单词作为最终输出单词的概率（），则上下文单词的输入向量与单词输出向量在更新的过程中会相差越来越大。

2如果相反，某个单词作为最终输出单词的概率被低估（），则单词的输入向量与单词输出向量在更新的过程中会越来越接近。

3如果对于单词的概率预测是准确的，则对于单词的输入向量在更新过程中几乎保持不变。

因此，上下文单词的输入向量的更新取决于词汇表中所有单词的预测误差。预测误差越大，则该单词对于上下文单词的输入向量的更新过程影响越大。

当我们通过训练语料库生成的上下文目标词对迭代更新模型参数时，对向量的影响会不断累积。我们可以想象一个单词w的输出向量被w的相邻输入向量来回拖动，就好像在w的向量和它相邻的向量之间有物理字符串一样。

类似地，一个输入向量也可以看作是被许多输出向量拖动的。这种解释可以提醒我们重力或力导向的图形布局。每个虚弦的平衡长度与相关单词对之间的共现强度以及学习速率有关。

经过多次迭代，输入向量和输出向量的相对位置最终会稳定下来。

在介绍完One-word context的CBOW模型之后，我们接着介绍multi-word context下的CBOW模型。

2.2 Multi-word context

基于multi-word context的CBOW模型就是利用多个上下文单词来推测中心单词target word的一种模型。其结构如图2所示：

论文阅读笔记-word2vec Parameter Learning Explained_第11张图片

其隐藏层的输出值的计算过程为：首先将输入的上下文单词（context words）的向量叠加起来并取其平均值，接着与input→hidden的权重矩阵相乘，作为最终的结果，公式如下：

其中C为上下文单词的个数，为上下文单词，为单词的输入向量，损失函数为：

论文阅读笔记-word2vec Parameter Learning Explained_第12张图片

hidden→output的权重更新公式：

input→hidden 的权重矩阵更新公式与公式（16）类似，只不过现在我们需要对每一个上下文单词都执行如下更新公式：

其中由上（12）给出。

3 Skip-Gram Model

与CBOW模型正好相反，Skip-Gram模型是根据中心单词（target word）来预测其上上下文信息（context words）。如图3所示，为Skip-Gram模型的结构示意图：

论文阅读笔记-word2vec Parameter Learning Explained_第13张图片

我们仍然使用来表示输入层上唯一的那个单词的输入向量，因此，我们对于隐藏层的输出值h的计算公式与公式（1）相同：

在输出层，与CBOW模型的输出为单个多项式分布不同的是，SG模型在输出层输出了C个多项式分布。每个输出都使用相同的hidden->output矩阵计算:

其中，表示输出层的第c个panel的第j个单词（何为panel?就是输出层的表示每个上下文单词的神经元的组合，图中一种有C个context words，所以总共有C个panel）；实际上表示的是输出上下文单词（output context words）的第c个单词；是唯一的输入单词；为输出层的第c个panel上的第j个神经单元的概率输出值；表示的是输出层第c个panel的第j个神经元的输入值；由于输出层的所有panels共享同一权重矩阵，因此：

其中，为词汇表第j个单词的输出向量；同样，它也是取自于hidden→output权重矩阵的一列。

SG模型参数更新公式的推导过程与one-word-context模型的推导过程大体上一样。这里我们将损失函数变为：

论文阅读笔记-word2vec Parameter Learning Explained_第14张图片

在得到损失函数E后，我们对输出层的每一个panel上的所有激活单元的输入值，均求其关于E的偏导数，得：

其中为输出层神经元的预测误差，与公式（8）类似。为了简化符号，我们定义一个V维向量作为所有上下文单词的预测误差之和：

接下来，我们计算hidden->output权重矩阵关于E的偏导数：

这样，我们就得到了hidden→ \rightarrow→output权重矩阵的参数更新公式为：

论文阅读笔记-word2vec Parameter Learning Explained_第15张图片

上述参数更新公式的直观概念理解与上文公式（11）理解一样，除了一点就是：输出层的预测误差的计算是基于多个上下文单词context words，而不是单个目标单词 target word；需注意的是对于每一个训练样本，我们都要利用该参数更新公式来更新hidden→output权重矩阵的每个元素。

同样，对于input→hidden权重矩阵W的参数更新公式的推导过程，除了考虑要将预测误差替换成外，其他也与上文公式（12）到（16）类似，这里我们直接给出更新公式：

其中，EH是一个N维向量，组成该向量的每一个元素可以用如下公式表示：

公式（36）的直观理解与公式（16）类似。

4 Optimizing Computational Efficiency

总结以上的模型介绍，我们发现所有模型的词汇表中的每个单词都存在两个向量表示形式：输入向量和输出向量，对于输入向量的参数学习成本并不高，但对于输出向量的学习成本代价是非常昂贵的。根据更新公式（22），（23）

我们可以发现，为了更新输出向量，对于每一个训练样例，我们必须迭代遍历词汇表中所有的单词，计算出它们的输入值，概率预测值，预测误差，最终使用预测误差更新它们的输出向量。

显然，对于每一个训练样例都要对所有单词计算上述各值，其成本是昂贵的。特别是对于大型的词汇表，这种计算方式是不切实际的。

因此为了解决这个问题，直观的方式是限制必须要更新的训练样例的输出向量的数目。一种有效的实现方式就是：hierarchical softmax（分层softmax），另一种实现通过采样的方式解决，我们在下个章节来讨论。

这两种方法都是通过只优化输出向量更新的计算过程来实现的。在我们的公式推导过程中，我们关心的有三个值：

（1） E ，新的目标函数

（2），新的关于输出向量的更新公式

（3），为了更新输入向量反向传播的预测误差的加权和

4.1 Hierarchical Softmax

**Hierarchical softmax 是一种有效的计算 softmax 的方式。**该模型使用一棵二叉树来表示词汇表中的所有单词。所有的V个单词都在二叉树的叶节点上。非叶子节点一共有V-1个。对于每个叶子节点，从根节点root到该叶子节点只有一条路径；这条路径用来评估用该叶子节点代表该叶子节点上单词的概率值。二叉树的结构如图4所示：

论文阅读笔记-word2vec Parameter Learning Explained_第16张图片

Figure 4: An example binary tree for the hierarchical softmax model.

其中白色的树节点代表的是词汇表中的单词，灰色节点为内部节点。图中高亮显示的是一条从根节点到到的路径，该条路径的长度为，表示从根节点到单词的路径上的第j个节点。

在hierarchical softmax模型中，所有的词汇单词没有输出向量表示形式。不同的是，二叉树的每一个内部节点都有一个输出向量，因此一个单词作为输出单词的概率计算公式定义如下：

其中，为节点n的左孩子节点，是内部节点的向量表示（输出向量），h是隐藏层的输出值（在SG模型中，h=；而在CBOW模型中，；是一种特殊的函数定义如下：

接下来，我们通过一个直观地例子来理解公式（37），如图4所示，假定我们需要计算单词作为输出单词的概率。我们将这个概率定义为从根节点开始随机游走到叶节点的概率。则在每一个内部节点（包括根节点），我们都需要确定其路径指向左孩子节点还是右孩子节点的概率。我们将经过内部节点的路径指向左孩子的概率定义为：

我们可以看出，公式（39）的值取决于内部节点的向量表示，和隐藏层的输出值h（h的值取决于输入单词的向量表示)。显然，内部节点的路径指向右孩子的概率则可以表示为（这里用到了Sigmoid 函数的性质）：

顺着图4中从根节点到单词节点的路径，我们可以计算出作为输出单词的概率为：

不难证明：

现在我们开始推导内部节点的向量表示形式的参数更新公式。为了简化步骤，我们首先考虑单个上下文单词（one-word context）的模型。
为了简化公式，我们定义子公式的简化符号如下：

论文阅读笔记-word2vec Parameter Learning Explained_第17张图片

则，给定一个训练样例，其误差函数我们可以定义如下：

对于误差函数E，我们取其关于的偏导数，得：

论文阅读笔记-word2vec Parameter Learning Explained_第18张图片

其中=1（如果=1）或者=0（如果=-1）

紧接着我们计算内部节点的向量表示关于函数E的偏导数，得：

因此，更新公式为：

我们可以将理解为内部节点的预测误差。每一个内部节点的“任务”就是预测其随机游走路径是指向左孩子节点还是指向右孩子节点。=1意味着节点的路径指向左孩子节点；=0则表示指向右孩子节点。是预测结果。

对于一个训练实例，如果内部节点的预测值非常接近于真实值，则它的向量表示的更新变化很小；否则量指向一个适当的方向是的该实例的预测误差逐渐减小。以上更新公式既能应用于CBOW模型，又能应用于SG模型。当在SG模型中使用该更新公式时，我们需要对C个output context words的每一个单词都重复此更新过程。

为了使用反向传播该预测误差来学习训练input→hidden的权重，我们对误差函数E求关于隐藏层输出值的偏导数，如下：

论文阅读笔记-word2vec Parameter Learning Explained_第19张图片

接下来我们根据公式（23）便可以获得CBOW模型输入向量的更新公式：

对于SG模型，我们需要计算上下文信息中的每个单词的EH值，并将EH值的和带入公式（35），就能够得到输入向量的更新公式。

从以上更新公式我们可以看出：**经过改进的模型Hierarchical softmax的每个训练样例的每个上下文单词的计算复杂度从降为级别。**但是模型的参数几乎没有什么改变（内部节点对应V-1维向量，而原始模型的单词的输出向量维数为V）

4.2 Negative Sampling

Negative Sampling模型的思想比hierarchical softmax模型更直接了当。

即：在每次迭代的过程中，有大量的输出向量需要更新，为了解决这一困难，negative sampling提出了只更新其中一部分输出向量的解决方案。
显然，最终需要输出的上下文单词（正样本）在采样的过程中应该保留下来并更新，同时我们需要采集一些单词作为负样本（因此称为“negative sampling”）。

在采样的过程中，我们可以任意选择一种概率分布。我们将这种概率分布称为 “ 噪声分布 ”（the noise distribution），用来表示。我们可以根据经验选择一种较好的分布。

在 word2vec中，我们无需使用一种能够产生良好定义的后验多项式分布的负采样形式，本文作者证明了使用下面简单的训练目标函数能够产生可靠的、高质量的 word embeddings:

其中是输出单词（the positive sample），是输出向量；

h是隐藏层的输出值：在CBOW模型中，，在SG模型中，h=。

是基于分布采样的一系列单词。

为了获得negative sampling模型的词向量更新公式，我们首先计算E关于输出单元的输入的偏导数：

论文阅读笔记-word2vec Parameter Learning Explained_第20张图片

其中，当是一个正样本时，=1；否则=0。接下来我们计算E关于单词的输出向量的偏导数：

因此输出向量的更新公式为：

negative sampling的关键就是公式（59）的更新过程只应用于词汇表的子集，而并非应用于整个词汇表。以上更新公式（59）的直观理解与公式（11）类似。公式（59）对两种应用模型CBOW和SG都适用。对于SG模型，我们每次更新一个上下文单词。

接着利用反向传播机制，计算E关于隐藏层输出h的偏导数：

论文阅读笔记-word2vec Parameter Learning Explained_第21张图片

将EH代入公式（23）

我们就可以得到CBOW模型关于输入向量的更新公式；

对于SG模型，我们需要计算出每个上下文单词的EH值，将EH值的和代入公式（35）就能够得到其输入向量的更新公式。

5总结

CBOW 模型（连续词袋模型）从多个单词（上下文）预测 1 个单词（目标词）；

skip-gram模型（跳字模型）反过来从 1 个单词（目标词）预测多个单词（上下文）。

层次化softmax将V分类的softmax改为logV层次二分类。（将每个样本的每次训练更新，求解所有隐藏层的权重矩阵改为求解哈弗曼节点权重矩阵）

负采样是针对每个训练样本的每次训练，只更新部分隐藏权重矩阵。

万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理