无知书童

CS224n Part1

1 Introduction to Natural Language Processing

为什么自然语言处理如此特殊？人类语言是一种专门用于传达意义的系统，而不是由任何形式的物理表现产生的系统。不同于其他任何机器学习任务。

2 Word Vectors

我们想编码每个单词编码为能够表达单词空间的向量。
one-hot vector
表达每个单词使用 $R^{|V|*1}$ 类型的向量，该项列只有一个位置为1，其余位置都为0。唯一的位置为该单词在单词表中的位置。 $∣ V ∣$ 为词库的长度。

这种方法我们完全独立的表达每个单词，每个词向量之间没有任何相似度。

3 SVD Based Methods

对于这类方法来查找单词嵌入，我们首先遍历大量数据集并累积后期单词共现以矩阵 $X$ 的某种形式计数，然后在 $X$ 上执行奇异值分解以获得 $USV^T$ 分解。然后我们使用 $U$ 行作为所有我们字典中的单词的次嵌入。让我们讨论一下 $X$ 的几个选择。

3.1 Word-Document Matrix

作为我们的第一次尝试，我们做出了大胆的猜想相关的经常出现在同一文件中。例如，“银行”，“债券”，“股票”，“货币”等可能会一起出现。但是“银行”，“章鱼”，“香蕉”和“曲棍球”会可能不会一直出现在一起。我们用这个事实来构建一个单词文档矩阵， $X$ 按以下方式：循环结束数十亿的文件和每次出现在文件中的单词，我们在条目 $X _{ij}$ 中添加一个。这显然是一个非常大的矩阵 $R ^{| V |×M}）$ 并且它与文档数量 $（ M ）$ 成比例。

3.2 Window based Co-occurrence Matrix

矩阵 $X$ 存储单词的共现，从而成为亲和度矩阵。在这方法我们计算每个单词出现在一个单词中的次数围绕感兴趣的词的特定大小的窗口。我们计算这计算了语料库中的所有单词。

3.3 Applying SVD to the cooccurrence matrix

现在，我们对 $X$ 进行奇异值分解，观察奇异值（矩阵S的对角线元素），然后根据我们期望捕获到的方差占比在某个索引 $k$ 处将其截断：
$\frac{\Sigma^k_{i=1}\sigma_i}{\Sigma^{|V|}_{i=1}\sigma_i}$
然后，我们将 $U_{1:|V|,1:k}$ 的子矩阵作为我们的词嵌入矩阵。这将会为我们词汇表中每个单词提供一个 $k$ 维向量表示形式。
这两种方法都给我们提供了足以编码语义和句法（词性）信息的词向量，但也存在了许多其它问题：

新单词的频繁添加以及语料库大小的变换使得矩阵的维数变换频繁。
大部分词组不存在共现使得矩阵特别稀疏。
矩阵维度过高，通常为10^6 × 10^6。
训练的开销过大，呈二次型（如执行奇异值分解）。
需要一些技巧解决词频的急剧失衡。

针对上述存在的一些问题，有以下解决方法：

忽略一些虚词，如“the”，“he”，“has”等。
利用倾斜窗口——根据文档中词与词之间的距离来加权共现次数。
使用Pearson相关矩阵，并把负计数设置为0，而不是使用原来的计数方式。

在下面的章节中，基于迭代的方法能够以更优雅的方式解决以上的一些问题。

4 Interation Based Methods - Word2vec

我们可以尝试创建一个模型，一次性只能学习一次迭代，最终可以根据上下文语境给出一个词出现的概率；而不是像之前一样计算和存储一些庞大数据集的全部信息（可能是数10亿句）。

这一方法的主要思路就是：设计一个模型，用该模型的参数来表示词向量，然后基于语料库进行训练。在每一次迭代中，我们评估模型的误差，然后对参数进行更新。我们称这种方法为‘反向传播’误差。模型和任务越简单，模型训练的速度越快。

2个算法： continuous bag-of-words (CBOW)和skip-gram。CBOW旨在根据上下文窗口语境预测中间词。Skip-gram与之相反，他根据中心词预测该词的上下文语境。
2个训练方法： negative sampling和hierarchical softmax。negative sampling通过负抽样来定义一个目标词。然而，hierarchical softmax通过使用一个高效的树结构计算所有词汇的概率来定义目标词。

4.1 Language Models

我们需要创建一个可以计算字符序列出现概率的模型。让我们看下下面的例子：
“The cat jumped over the puddle.”
一个好的语言模型可以赋予这个句子高的概率。因为这句话符合句法和语义，通俗一点，他是一句人话。相反，应该赋予"stock boil fish is toy"这句话低的概率，因为这句话不是人话，没有任何意义。我们可以用以下数学表达式来表示给定n个单词序列的概率：
$P(w_1,w_2,...w_n)$
我们假定每个单词的出现时相互独立的，那么上面的一元模型的概率可以拆散为以下形式：
$P(w_1,w_2,...w_n)=\quad \prod_{i=1}^nP(w_i)$
然而，我们知道这有一些荒唐，因为下一个词的出现高度依赖于先前的单词序列。有可能导致那些愚蠢的，不像人话的句子被赋予的分数较高。因此，也许我们可以让序列的概率取决于序列中一个单词的成对概率和它旁边一个单词的概率。我们称之为二元语言模型(bigram model)，表示如下：
$P(w_1,w_2,...w_n)=\quad \prod_{i=1}^nP(w_i|w_{i-1})$
当然，这还是有点幼稚，因为我们只考虑一对相邻的词，而不是计算整个句子。但是，我们将会看到，这种表示方法使我们能够前行的更远。通过一个上下文大小为1的词矩阵，我们基本上能够获取这些成对词语的概率。但是，这需要计算和储存一个海量数据集的全部信息。

既然我们已经明白如何理解一个拥有概率性质的字符序列，那么接下来，我们将会介绍一些可以自主学习这些概率的模型。

4.2 Continuous Bag of Words Model (CBOW)

一种方法是把{‘The’, ‘cat’, ‘over’, ‘the’, ‘puddle’}作为上下文，来预测中心词语’jumped’。我们称这类模型为Bag of Words (CBOW)模型。

让我们详细地讨论下CBOW模型。首先，我们设定一些已知的参数。这些已知参数为用于表示单词的one-hot向量。我们用 $x^{(c)}$ 表示输入的one_hot向量（上下文），用 $y^{(c)}$ 表示输出。在CBOW模型中，只有一个输出，所以我们称 $y$ 为已知中心词的one-hot向量。接下来，让我们定义模型中未知的参数。

我们创建两个矩阵， $v∈R^{n×|V|}$ 和 $u∈R^{|V|×n}$ 。 $n$ 为词嵌入向量的大小， $v$ 为输入词矩阵，其中,当 $w_i$ 为模型的一个输入时， $v$ 的第 $i$ 列为单词 $w_i$ 的 $n$ 维词嵌入向量。我们把这个 $n \times 1$ 向量定义为 $v_i$ 。相似的， $u$ 为输出词矩阵，当 $w_i$ 模型的一个输出时， $u$ 的第 $j$ 行为单词 $w_j$ 嵌入向量。我们把 $u$ 的第 $j$ 行定义为 $u_j$ 。请注意：我们实际上为每个单词 $w_i$ 学习了两个词向量(输入词向量 $v_i$ 和输出词向量 $u_i$ )。

模型工作包含以下几步：
1.获取输入的one-hot向量，窗口大小为m :
$x^{(c-m)},..., x^{(c-1)}, x^{(c+1)},..., x^{(c+m)}∈R^{|V|})$ 。
2.我们得到输入窗口语料的词嵌入向量
$v_{(c-m)}=vx^{(c-m)}, v_{(c-m+1)}=vx^{(c-m+1)}, ... ,v_{(c+m)}=vx^{(c+m)}∈R^n)$
3.求取这些向量的平均值，得到：
$\hat{v}=\frac{v_{c-m}+v_{c-m+1}+...+v_{c+m}}{2m}\in R^n$
4.生成一个分数向量（score vector)： $z=u\hat{v} \in R^{|V|}$ ，由于向量之间越相似，其点积越高，所以相似的单词将会离得更近以得到更高的分数。
5.利用Softmax函数将分数转换为概率的形式： $\hat{y}=softmax(z) \in R^{|V|}$
6.我们期望预测的概率 $\hat{y}$ 能够与真实概率 $y$ 相匹配，即刚好是目标单词的one-hot向量。

既然我们已经了解了当我们拥有 $v$ 和 $u$ 两个矩阵后，我们的模型是怎么工作的。那么，我们该怎么去学习获取这两个未知参数矩阵呢？这时，我们需要创建一个目标函数。通常，当我们从某种真实概率中学习概率时，我们会借助信息理论来度量两个分布之间的距离。这里，我们使用最常用的距离/损失度量，交叉熵。在离散情况下，使用交叉熵的灵感来自于下面的损失函数：
$H(\hat{y},y)=-\sum_{j=1}^{|V|} y_ilog(\hat{y_i})$
让我们考虑下CBOW这个案例，y为one-hot向量。因此，上面的损失函数可以简化为：
$H(\hat{y},y)=-y_ilog(\hat{y_i})$
在这个公式中，c是指目标单词one-hot向量为1的索引。假设我们的预测非常完美时，我们可以算得：
$H(\hat{y},y)=-1log(1)=0$ 。
因此，对于一个完美的预测，不会得到惩罚或者损失。假设我们的预测很差，为0.01，则我们可以得到：
$H(\hat{y},y)=-1log(0.01)\approx4.605$
因此，我们可以看出对于概率分布，交叉熵为我们提供了一个很好的度量距离（误差）的方法。因此，我们把我们模型的优化目标设置为：

采用随机梯度下降法（stochastic gradient descent）更新所有相关的词向量 $u_c$ 和 $v_j$ 。

4.3 Skip-Gram Model

另一种方法是创建一个模型，给定一个中心单词’jumped’，该模型能够预测周边单词（上下文）：‘The’, ‘cat’, ‘over’, ‘the’, ‘puddle’。这里，我们称单词’jumped’为语境（context）。我们称这类模型为Skip-Gram模型。

Skip—Gram模型和CBOW模型很相似，不过这里我们把 $x$ 和 $y$ 进行了交换，即CBOW中的 $x$ 现在变为了 $y$ ,反之亦然。我们用 $x$ 表示输入的one-hot向量（中心单词），尽管这里只有一个单词。用 $y^{(j)}$ 表示输出向量。 $v$ 和 $u$ 的定义和CBOW中的定义相同。
我们把Skip-Gram模型的工作流程拆分为以下6个步骤：
1.获取中心单词的one-hot输入向量 $\in R^{|V|}$ 。
2.求取中心单词的词嵌入向量 $v_c =vx \in R^n$ 。
3.计算分数向量 $z = uv_c$ 。
4.通过Softmax函数将分数向量转换为概率: $\hat{y}=softmax(z)$
注意：每个上下文词的概率为： $\hat{y}_{c-m},...,\hat{y}_{c-1},\hat{y}_{c+1},...,\hat{y}_{c+m}$ 。
5.我们期望计算出的概率和真实概率 $y^{(c-m)},..., y^{(c-1)}, y^{(c+1)},..., y^{(c+m)}$ 相匹配。
正如CBOW模型那样，我们同样也需要定义一个目标函数来衡量我们的模型。最重要的一个区别是，在Skip-Gram模型中我们引入朴素贝叶斯假设来分解概率。简单地说，就是一个强条件独立假设。换句话说，给定中心单词，所有的输出单词完全相互独立。

通过目标函数，我们计算未知参数的相应梯度，以及在每次迭代中通过随机梯度下降法更新这些未知参数。

注意：
在Skip-Gram模型中，只输出了一个概率向量。Skip-Gram模型同等对待每一个背景词：模型计算每一个背景词的出现概率，和背景词到中心词的距离无关。

4.4 Negative Sampling

接下来，让我们探讨一下目标函数。在 $∣ V ∣$ 维数据上进行求和的计算量巨大！目标函数的任何更新后者计算将会消耗大量的时间。我们可以尝试通过近似的方法去提高效率。

在每次训练过程中，我们可以仅仅抽取几个负样本，而不是循环遍历整个词汇表！我们从一个噪声分布 $P_n(w))$ 中抽样，其概率与词汇表中词频相匹配。如果把负抽样机制应用到模型中，我们需要调整以下几点：

目标函数
梯度
更新规则

虽然负抽样基于Skip-Gram模型，但实际上它优化了一个不同的目标函数。(w, c)(w, c分别为单词(word)和上下文(context))是否真的来自训练数据集(即w, c是否分别对应为训练集的中心词（输入）和背景词（输出）？
记 $P (D = 1 ∣ w, c)$ 为(w, c)来自语料库数据的概率，相应的 $P (D = 0 ∣ w, c)$ 为(w, c)不是来自语料库的概率。首先，我们用sigmoid函数来模拟 $P (D = 0 ∣ w, c)$ ：

sigmoid函数为softmax的1维特殊形式，可以用于表示概率。

现在，我们建立了一个新的目标函数，试图当(w, c)来自语料库时最大化概率 $P (D = 1 ∣ w, c)$ ，当(w, c)不是来自语料库时，最大化概率 $P (D = 0 ∣ w, c)$ 。我们采用最大似然估计(MLE)来计算这两个概率。（这里，我们记θ为模型的参数，在word2vec模型里对应着v和u。）
所以最大化似然函数等同于最小化下面的负对数似然函数：
记 $\tilde{D}$ 为错误(false)/负(negative)语料库。当我们有一个句子，例如"stock boil fish is toy"。不自然的句子出现的概率应该很低。我们可以从词库里随机抽取生成负样本 $\tilde{D}$ 。

对于Skip-Gram模型，给定中心词c观察到上下文c-m+j的目标函数为：

对于CBOW模型，给定（上下文）背景词向量，观察到中心词 $u_c$ 的目标函数为：

其中，负样本服从 $P_n(w)$ 分布。但是Pn(w)该是什么样的呢？经过多次地讨论以及实验如何做出最好的近似，似乎一元文法模型(Unigram Model)的3/4次方的效果最好。为什么是3/4呢？下面的例子可能会帮助你理解一下:

is: 0.93/4 = 0.92
Constitution: 0.093/4 = 0.16
bombastic: 0.013/4 = 0.032

可以看出："Bombastic"现在被抽到的可能性是之前的3倍，然而"is"仅仅提升了一点

4.5 Hierarchical Softmax

层次softmax对低频单词的效果较好。然而负抽样对高频单词以及低维向量的效果较好。

层次softmax采用二叉树展示词汇表中的所有单词。树的每一个叶子节点代表一个单词，并且从根节点到叶节点的路径是唯一的。在这个模型中，树的每一个节点（除了根节点和叶节点）都对应着一个向量，这个向量需要模型去学习。

给定一个向量 $w_i$ ，单词 $w$ 的概率 $P(w | w_i)$ 等于从根节点随机游走，最终到达叶节点 $w$ 的概率。这种计算概率的方式的主要优点是花销仅仅为 $O (l o g (∣ V ∣))$ 。

用 $L (w)$ 表示从根节点到叶节点w的节点数。例如（如下图所示）:

$L(w_2)$ 为3。用 $n (w, i)$ 表示路径中第 $i$ 个节点，对应的向量表示为 $v_{n(w,i)}$ 。所以 $n (w, 1)$ 为根节点， $n (w, L (w))$ 为 $w$ 的父节点。现在，对于每一个内层节点n，我们任意挑选一个子节点，用 $c h (n)$ 表示（例如，总抽取左节点）。然后，我们可以计算概率：

首先，我们根据从根节点(n(w,1))到叶节点(w)的路径形状计算每一项的乘积。如果我们假设ch(n)总是n的左节点，那么当路径沿着左侧行走时，[n(w, j+1) = ch(n(w, j))]为1，当沿着右侧时，为-1。

此外，[n(w, j+1) = ch(n(w, j))]起到了正则化的作用（概率的公理化定义）。即在节点n处，向左和向右的概率相加为1：

同时正则化就像在原始softmax中那样也保证了：

最后，我们使用点积计算输入向量 $v_{wi}$ 和每个内节点向量 $v^T_{n(w,j)}$ 的相似性。让我们看下示例：在上图中选取 $w_2$ ，我们必须通过两个左节点和一个右节点才能从根节点到达 $w_2$ ，所以：

为了训练模型，我们的目标依然是最小化负对数释然 $log P(w| w_i)$ 。但是我们在训练过程不再更新每个单词的输出向量，而是更新二叉树中从根节点到叶节点路径上的节点单词的向量。

参考：
https://github.com/stanfordnlp/cs224n-winter17-notes
https://www.meiwen.com.cn/subject/ujamhxtx.html

【图像处理基石】如何入门大规模三维重建？小米玄戒Andrew 图像处理基石深度学习人工智能三维重建大规模三维重建立体视觉大模型 LLM
入门大规模三维重建需要从基础理论、核心技术到实践工具逐步深入，同时需关注该领域的经典工作和前沿进展。以下是分阶段的入门路径及值得重点学习的工作：一、基础理论与前置知识大规模三维重建的核心是从海量图像或传感器数据中恢复场景的三维结构，涉及计算机视觉、摄影测量、图形学、最优化等多个领域，需先掌握以下基础：数学基础线性代数：矩阵运算、特征值分解（用于相机姿态估计）、奇异值分解（SVD，用于基础矩阵求解）
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如果让计算机理解人类语言- One-hot 编码（One-hot Encoding，1950s）
如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）flyfish如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）如果让计算机理解人类语言-词袋模型（BagofWords,BoW，1970s）如果让计算机理解人类语言-Word2Vec（WordtoVector，2013）如果让计算机理解人类语言-Qwen3Embedd
Python 用 NumPy 进行矩阵分解
Python用NumPy进行矩阵分解关键词：NumPy,矩阵分解,线性代数,奇异值分解,QR分解,LU分解,特征值分解摘要：本文将深入探讨使用NumPy进行矩阵分解的各种技术。我们将从基础的线性代数概念出发，详细讲解五种核心矩阵分解方法：LU分解、QR分解、奇异值分解(SVD)、特征值分解和Cholesky分解。每种方法都将配有数学原理说明、NumPy实现代码和实际应用案例。文章还将介绍矩阵分解在
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
[AI笔记]-Word2Vec面试考点 Micheal超 AI笔记人工智能笔记 word2vec
✅一、基础认知类什么是Word2Vec？它的基本思想是什么？关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测Word2Vec与One-hot编码的区别？关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系Word2Vec的两种模型是什么？它们有何区别？答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
自然语言处理基础知识入门(三) RNN，LSTM，GRU模型详解这个男人是小帅 NLP自然语言知识梳理入门 rnn 自然语言处理 lstm gru 人工智能神经网络
文章目录前言一、RNN模型1.1RNN的作用1.2RNN基本结构1.3双向循环神经网络1.4深层双向循环神经网络1.5RNN的梯度爆炸和消失问题二、LSTM模型2.1LSTM和RNN的结构对比2.2LSTM模型细节三、GRU模型总结前言在上一章节中，深入探讨了Word2vec模型的两种训练策略以及创新的优化方法，从而得到了优质的词嵌入表示。不仅如此，Word2vec作为一种语言模型，也具备根据上下
60天python训练营打卡day20 tan90�= python60天打卡 python 开发语言
学习目标：60天python训练营打卡学习内容：DAY20奇异值SVD分解奇异值分解这个理论，对于你未来无论是做图像处理、信号处理、特征提取、推荐系统等都非常重要，所以需要单独抽出来说一下这个思想。—甚至我在非常多文章中都看到单独用它来做特征提取（伪造的很高大上），学会这个思想并不复杂没学过线代的不必在意，推导可以不掌握，关注输入输出即可。今天这期有点类似于帮助大家形成闭环—考研数学不是白考的知识
Word2Vec 原理是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python word2vec 人工智能自然语言处理
Word2Vec原理是什么一、核心概念：从词语到向量的语义映射Word2Vec是2013年由Google提出的词嵌入（WordEmbedding）模型，其核心目标是将自然语言中的词语转换为稠密的连续向量（词向量），使向量空间中的距离能反映词语的语义相关性。本质：通过神经网络学习词语的分布式表示（DistributedRepresentation），打破传统one-hot编码“维度高、无语义关联”的
怎么对词编码进行可视化：Embedding Projector ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python embedding
怎么对词编码进行可视化：EmbeddingProjectorhttps://projector.tensorflow.org/EmbeddingProjector是用于可视化高维向量嵌入（如词向量、图像特征向量等）的工具，能帮你理解向量间的关系，下面以词向量分析和**简单自定义数据（比如特征向量）**为例，教你怎么用：一、词向量分析场景（以图中Word2Vec数据为例）1.加载数据与基础查看图里已
python哈夫曼树压缩_哈夫曼树及python实现七十二便 python哈夫曼树压缩
最近在看《tensorflow实战》中关于RNN一节，里面关于word2vec中涉及到了哈夫曼树，因此在查看了很多博客(文末)介绍后，按自己的理解对概念进行了整理(拼凑了下TXT..)，最后自己用python实现Haffuman树的构建及编码。哈夫曼(huffman)树基本概念路径和路径长度：树中一个结点到另一个结点之间的分支构成这两个结点之间的路径；路径上的分枝数目称作路径长度，它等于路径上的结
词编码模型有哪些 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 人工智能机器学习数据挖掘分类算法
词编码模型有哪些词编码模型在高维向量空间的关系解析与实例说明如Word2Vec、BERT、Qwen等一、高维向量空间的基础概念词编码模型（如Word2Vec、BERT、Qwen等）的核心是将自然语言符号映射为稠密的高维向量，使语义相近的词汇在向量空间中位置接近。以Qwen模型为例，其15万字符的词表规模（通常基于字节对编码BPE）本质是在高维空间中为每个词分配唯一的坐标点，而向量之间的几何关系（如
Python 训练营打卡 Day 20-奇异值SVD分解帮关下月亮 python训练营 python 算法开发语言
一.奇异值分解（SVD）的输入和输出输入：一个任意的矩阵A，尺寸为m×n（其中m是行数，n是列数，可以是矩形矩阵，不必是方阵）奇异值分解（SVD）得到的三个矩阵U、Σ和V^T各有其特定的意义和用途，下面我简要说明它们的作用：U（奇异值向量矩阵）：是一个m×m的正交矩阵，列向量是矩阵AA^T的特征向量作用：表示原始矩阵A在行空间（样本空间）中的主方向或基向量。简单来说，U$的列向量描述了数据在行维度
疏锦行Python打卡 DAY 20 奇异值SVD分解橘子夏与单车少年k Python60天打卡训练营 python numpy 开发语言
importnumpyasnp#创建一个矩阵A(5x3)A=np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]])print("原始矩阵A:")print(A)#进行SVD分解U,sigma,Vt=np.linalg.svd(A,full_matrices=False)print("\n奇异值sigma:")print(sigma)#保留
Python打卡训练营day20-奇异值SVD分解 sak77 python打卡训练营 python 机器学习奇异值分解 SVD
知识点回顾：线性代数概念回顾（可不掌握）奇异值推导（可不掌握）奇异值的应用特征降维：对高维数据减小计算量、可视化数据重构：比如重构信号、重构图像（可以实现有损压缩，k越小压缩率越高，但图像质量损失越大）降噪：通常噪声对应较小的奇异值。通过丢弃这些小奇异值并重构矩阵，可以达到一定程度的降噪效果。推荐系统：在协同过滤算法中，用户-物品评分矩阵通常是稀疏且高维的。SVD(或其变种如FunkSVD,SVD
MATLAB实现的基于SVD的数字图像水印技术张锦云
本文还有配套的精品资源，点击获取简介：在数字图像处理中，SVD水印技术是一种有效的版权保护方法。它利用SVD算法在MATLAB环境下嵌入和提取水印，确保图像质量的同时隐藏信息。本文介绍了在MATLAB中实现SVD水印的步骤，包括图像预处理、SVD分解、水印嵌入、图像重构、水印提取和代码注释等关键环节。实践中涉及的技术点包括图像处理、SVD函数使用、数据编码策略、数值稳定性和图像质量评估。1.数字图
NLP学习路线图（四十五）：偏见与公平性摸鱼许可证 NLP学习路线图自然语言处理学习人工智能 nlp
一、偏见：算法中的“隐形歧视者”NLP模型本身并无立场，其偏见主要源于训练数据及算法设计：数据根源：人类偏见的镜像历史与社会刻板印象：大量文本数据记录着人类社会固有的偏见。词嵌入模型（如Word2Vec,GloVe）曾显示：“男人”与“程序员”的关联度远高于“女人”；“非裔美国人姓名”更易与负面词汇关联。训练语料库若包含带有性别歧视、种族歧视或地域歧视的文本，模型便可能吸收并重现这些关联。代表性偏
多模态核心实现技术 charles666666 自然语言处理神经网络人工智能机器学习语言模型
一、模态表示（ModalRepresentation）模态表示是将不同模态数据（文本、图像、音频等）编码为计算机可处理的向量形式的核心步骤。1.单模态编码技术文本表示：采用词嵌入模型（如Word2Vec、GloVe）或预训练语言模型（如BERT、RoBERTa），通过Transformer层提取上下文特征，生成动态词向量。高阶表示：通过句向量模型（如Sentence-BERT）将整段文本映射为固定
AI推荐系统演进史：从协同过滤到图神经网络与强化学习的融合万米商云人工智能神经网络深度学习
每一次滑动手机屏幕，电商平台向你推荐心仪商品的背后，是超过百亿量级的浮点运算。从早期的“猜你喜欢”到如今的“比你更懂你”，商品推荐引擎已悄然完成从简单规则到深度智能的技术跃迁。一、协同过滤：推荐系统的基石与演进协同过滤（CollaborativeFiltering）作为推荐系统的“古典方法”，其核心思想朴素却有力：相似的人喜欢相似的东西。早期的矩阵分解技术（如2009年的SVD算法）将用户-物品交
自然语言处理之语言模型：Word2Vec：Word2Vec模型的训练与优化
自然语言处理之语言模型：Word2Vec：Word2Vec模型的训练与优化自然语言处理基础文本预处理文本预处理是自然语言处理（NLP）中至关重要的第一步，它包括多个子步骤，旨在将原始文本转换为适合机器学习模型的格式。以下是一些常见的文本预处理技术：分词（Tokenization）：将文本分割成单词或短语。例如，将句子“我喜欢自然语言处理”分割为“我”，“喜欢”，“自然语言处理”。转换为小写（Low
基于 GQA 与 MoE 的古诗词生成模型优化 llm项目以及对应八股许愿与你永世安宁自用大模型八股 rnn nlp bert transformer 人工智能深度学习 word2vec
目录项目项目背景个人贡献成果产出词嵌入Word2Vec两种训练方式：两种加速训练的方法：GloVe（GlobalVectorsforWordRepresentation）FastTextMHA、GQA、MLApromptengineering位置编码正余弦编码（三角式）可学习位置编码（训练式）经典相对位置编码T5相对位置编码RotaryPositionEmbedding（RoPE）attentio
Python自然语言处理库之gensim使用详解 Rocky006 python 开发语言
概要Gensim是一个专门用于无监督主题建模和自然语言处理的Python开源库，由捷克共和国的RadimŘehůřek开发。该库专注于处理大规模文本数据，提供了多种经典的主题建模算法，如LDA（潜在狄利克雷分配）、LSI（潜在语义索引）等，以及现代化的词向量模型Word2Vec、Doc2Vec、FastText等。Gensim的设计理念是"为人类而非机器"，强调易用性和可扩展性，特别适合处理无标签
深度学习中的负采样洪小帅深度学习人工智能
深度学习中的负采样负采样（NegativeSampling）是一种在训练大型分类或概率模型（尤其是在输出类别很多时）中，用来加速训练、降低计算量的方法。它常用于：词向量训练（如Word2Vec）推荐系统（从大量候选项中学正例与负例）语言模型、对比学习、信息检索等场景本质概念在许多任务中，我们的模型要从上万个候选中预测正确类别。例如：给定单词“cat”，预测它上下文中出现的词（如Word2Vec的S
矩阵的奇异值（Singular Values）幼儿园大哥~ 扩展知识矩阵算法线性代数
矩阵的奇异值（SingularValues）是奇异值分解（SVD）过程中得到的一组重要特征值。它们在许多应用中非常重要，如信号处理、数据压缩和统计学等。以下是对奇异值及其计算和性质的详细解释：奇异值分解（SVD）奇异值分解是矩阵分解的一种方法，它将任意一个实数或复数矩阵分解为三个特定矩阵的乘积。具体来说，对于一个m×nm\timesnm×n的矩阵M\mathbf{M}M，其奇异值分解表示为：M=U
矩阵特征值和奇异值之间的关系 hxyzs 矩阵机器学习线性代数
矩阵的特征值和奇异值是线性代数中重要的概念，它们之间存在一定的关系。对于一个方阵，其特征值是该矩阵在空间中的特殊向量方向上的缩放因子。特征值可以通过解矩阵的特征值问题得到，即找到满足方程Ax=λx的非零向量x和标量λ。而对于一个非方阵的矩阵，它的奇异值则是矩阵的秩和特征向量的相对缩放因子。奇异值分解（SVD）可以将矩阵分解为三个部分：U、Σ和V^T，其中U和V是正交矩阵，Σ是一个对角矩阵，对角线上
NLP学习路线图（十八）：Word2Vec (CBOW & Skip-gram) 摸鱼许可证 NLP学习路线图 nlp 学习自然语言处理
自然语言处理（NLP）的核心挑战在于让机器“理解”人类语言。传统方法依赖独热编码（One-hotEncoding）表示单词，但它存在严重缺陷：每个单词被视为孤立的符号，无法捕捉词义关联（如“国王”与“王后”的关系），且维度灾难使计算效率低下。词向量（WordEmbedding）革命性地解决了这些问题。它将单词映射为稠密、低维的实数向量（如50-300维），其核心思想是：具有相似上下文（Contex
cortex-debug怎么提取添加.svd文件进行外设查看 c++小白，瞎写博客 vscode 单片机
找到厂家提供的keil的pack包，改后缀成zip以压缩文件打开，把svd文件移出来，添加"svdFile"项
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

CS224n Part1

CS224n Part1

1 Introduction to Natural Language Processing

2 Word Vectors

3 SVD Based Methods

3.1 Word-Document Matrix

3.2 Window based Co-occurrence Matrix

3.3 Applying SVD to the cooccurrence matrix

4 Interation Based Methods - Word2vec

4.1 Language Models

4.2 Continuous Bag of Words Model (CBOW)

4.3 Skip-Gram Model

4.4 Negative Sampling

4.5 Hierarchical Softmax

你可能感兴趣的:(#,CS224n,Word2Vec,SVD,Skip-gram,CBOW)