l_r_h000

自然语言处理(NLP)之Word Embedding

最近做完UNIT一个小项目后，结合同时期看KBQA的文章，对NLP/NLU方向产生了比较大的兴趣，想深入学习一下，结合一篇综述Recent Trends in Deep Learning Based Natural Language Processing（参考文献[5]为其阅读笔记）的阐述顺序，把相关的知识补一补，本文即第一部分Word Embedding。

主要参考文献：

[1] word2vec 中的数学原理详解

[2] Word Embedding与Word2Vec

[3] 自然语言处理中的N-Gram模型详解

[4] 有谁可以解释下word embedding?——知乎

[5] 2017-基于DL的NLP研究近况

一、Word Embedding概述

二、Word2vec之前

2.1 one-hot

2.2 n-gram

2.3 co-occurrence matrix

2.4 NLM

三、Word2vec

3.1 CBOW

3.1.1 基于Hierarchical Softmax

3.1.2 基于Negative Sampling

3.2 Skip-gram

3.2.1 基于Hierarchical Softmax

3.2.2 基于Negative Sampling

一、Word Embedding概述

简单来说，词嵌入（Word Embedding）或者分布式向量（Distributional Vectors）是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。由于要考虑多种因素比如词的语义（同义词近义词）、语料中词之间的关系（上下文）和向量的维度（处理复杂度）等等，我们希望近义词或者表示同类事物的单词之间的距离可以理想地近，只有拿到很理想的单词表示形式，我们才更容易地去做翻译、问答、信息抽取等进一步的工作。

在Word Embedding之前，常用的方法有one-hot、n-gram、co-occurrence matrix，但是他们都有各自的缺点，下面会说明。2003年，Bengio提出了NLM，是为Word Embedding的想法的雏形，而在2013年，Mikolov对其进行了优化，即Word2vec，包含了两种类型，Continuous Bag-of-Words Model 和 skip-gram model。

Word Embedding是基于分布式假设(distributional hypothesis)：

总的来说，word embedding就是一个词的低维向量表示（一般用的维度可以是几十到几千）。有了一个词的向量之后，各种基于向量的计算就可以实施，如用向量之间的相似度来度量词之间的语义相关性。其基于的分布式假设就是出现在相同上下文(context)下的词意思应该相近。所有学习word embedding的方法都是在用数学的方法建模词和context之间的关系。

作者：李明磊9527
链接：https://www.zhihu.com/question/32275069/answer/197721342
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

但是Word Embedding也有其局限性，比如：

难以对词组做分布式表达

受限于上下文window的尺寸，有些词（例如好或坏）的上下文可能没什么不同甚至完全一样，这对情感分析任务的影响非常大

此外，Word Embedding对于应用场景的依赖很强，所以针对特殊的应用场景可能需要重新训练，这样就会很消耗时间和资源，为此Bengio提出了基于负采样（negative sampling）的模型。

下面本文会将对Word2vec之前的常用方法和Word2vec的两种模型做比较详细的记录和理解。

二、Word2vec之前

2.1 one-hot

one-hot是最简单的一种处理方式。通俗地去讲，把语料中的词汇去重取出，按照一定的顺序（字典序、出现顺序等）排列为词汇表，则每一个单词都可以表示为一个长度为N的向量，N为词汇表长度，即单词总数。该向量中，除了该词所在的分量为1，其余均置为0。

例如，有语料库如下：

John likes to watch movies. Mary likes movies too.

John also likes to watch football games.

假设我们的词汇表排序结果如下：

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also":6, "football": 7, "games": 8, "Mary": 9, "too": 10}

那么则有如下word的向量表示：

John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

……

用这样的方式可以利用向量相加进一步表示句子和文本了，但是one-hot有很大的局限性：

语义的相似性，“woman”、“madam”、“lady”从语义上将可能是相近的，one-hot无法表示
英语单词中的复数时态，我们不会在排序是就把同一单词的不同形态区别开来，继而再进行向量表示
单词之间的位置关系，很多时候句内之间多个单词（比如术语）会同时出现多次，one-hot无法表示
词向量长度很大，一方面2的原因，另一方面本身大规模语料所含的词数很多，处理会很棘手

2.2 n-gram

n-gram可以表示单词间的位置关系所反映的语义关联，在说明n-gram之前，我们从最初的句子概率进行推导。

假设一个句子S为n个单词有序排列，记为：

$\LARGE S=\overline{w_{1}w_{2}...w_{n}}$

我们将其简记为 $W_{1}^{n}$ ，则这个句子的概率为：

对于单个概率意思为该单词在前面单词给定的情况下出现的概率，我们利用贝叶斯公式可以得到：

$\LARGE p(w_i|W_{1}^{i-1})=\tfrac{p(\overline{W_{1}^{i-1}w_i})}{p(W_{1}^{i-1})}=\tfrac{p(W_{1}^{i})}{p(W_{1}^{i-1})}=\tfrac{count(W_{1}^{i})}{count(W_{1}^{i-1})}$

其中最后一项为 $W_{1}^{i}$ 在语料中出现的频数。但是长句子或者经过去标点处理后的文本可能很长，而且太靠前的词对于词的预测影响不是很大，于是我们利用马尔可夫假设，取该词出现的概率仅依赖于该词前面的n-1个词，这就是n-gram模型的思想。

所以上面的公式变为：

$\LARGE p(w_i|W_{1}^{i-1})\approx p(w_i|W_{i-(n-1)}^{i-1})=\tfrac{count(W_{i-n+1}^{i})}{count(W_{i-n+1}^{i-1})}$

在这里，我们不对n的确定做算法复杂度上的讨论，详细请参考文献[1]，一般来说，n取3比较合适。此外对于一些概率为0的情况所出现的稀疏数据，采用平滑化处理，此类算法很多，以后有时间再具体展开学习。

所以n-gram的主要工作在于确定n之后，对语料中的各种吃词串进行频数统计和平滑化处理，对于所需要的句子概率，只要将之前语料中相关概率取出计算就可以了。

当然实际情况是对 $\large p(w_i|W_{i-(n-1)}^{i-1})$ 做最优化处理，参数确定后以后的概率就可以通过函数确定了，这就需要构造函数，后面的NLM就是做这个工作。

n-gram模型会将前文的语义关联纳入考虑，从而形成联合分布概率表达，但是尽管去前n-1个单词，语料大的情况下计算量还是很大，在模拟广义情境时严重受到了“维度灾难（curse of dimensionality）”。

2.3 co-occurrence matrix

共现矩阵也是考虑语料中词之间的关系来表示：

一个非常重要的思想是，我们认为某个词的意思跟它临近的单词是紧密相关的。这是我们可以设定一个窗口（大小一般是5~10），如下窗口大小是2，那么在这个窗口内，与rests 共同出现的单词就有life、he、in、peace。然后我们就利用这种共现关系来生成词向量。

例如，现在我们的语料库包括下面三份文档资料：

I like deep learning.

I like NLP.

I enjoy flying.

作为示例，我们设定的窗口大小为1，也就是只看某个单词周围紧邻着的那个单词。此时，将得到一个对称矩阵——共现矩阵。因为在我们的语料库中，I 和 like做为邻居同时出现在窗口中的次数是2，所以下表中I 和like相交的位置其值就是2。这样我们也实现了将word变成向量的设想，在共现矩阵每一行（或每一列）都是对应单词的一个向量表示。

虽然Cocurrence matrix一定程度上解决了单词间相对位置也应予以重视这个问题。但是它仍然面对维度灾难。也即是说一个word的向量表示长度太长了。这时，很自然地会想到SVD或者PCA等一些常用的降维方法。当然，这也会带来其他的一些问题。

窗口大小的选择跟n-gram中确定n也是一样的，窗口放大则矩阵的维度也会增加，所以本质上还是带有很大的计算量，而且SVD算法运算量也很大，若文本集非常多，则不具有可操作性。

2.4 NLM

神经语言模型（Neural Language Model）是Word Embeddings的基本思想，在很多其他文献中也有神经概率语言模型（Neural Probabilistic Language Model，NPLM）或者神经网络语言模型（Neural Network Language Model，NNLM），都是指一个东西。

NLM的输入是词向量，根据参考文献[1]，词向量和模型参数（最终的语言模型）可以通过神经网络训练一同得到。相比于n-gram通过联合概率考虑词之间的位置关系，NLM则是利用词向量进一步表示词语之间的相似性，比如近义词在相似的上下文里可以替代，或者同类事物的词可以在语料中频数不同的情况下获得相近的概率。结合参考文献[1]，举一个简单例子：

在一个语料C中，S1=“A dog is sitting in the room.”共出现了10000次，S2="A cat is sitting in the room"出现了1次，按照n-gram的模型，当我们输入“A _____ is sitting in the room”来预测下划线上应该填入的词时，dog的概率会远大于cat，这是针对于语料C得到的概率。但是我们希望相似含义的词在目标向量空间中的距离比不相关词的距离更近，比如v(man)-v(woman)约等于v(gentleman)-v(madam)，用这样生成的词向量或者已经训练好的模型在去做翻译、问答等后续工作时，就会很有效果，而NLM利用词向量表示就能达到这样的效果。

注：在参考文献[1]中，作者举的例子是从句子概率角度，我自己的理解稍有不同，将原例放在下面：

NLM的神经网络训练样本同n-gram的取法，取语料中任一词w的前n-1个词作为Context(w)，则（Context(w)，w）就是一个训练样本了。这里的每一个词都被表示为一个长度为L的词向量，然后将Context(w)的n-1个词向量首位连接拼成（n-1）L的长向量。下面为NLM图解：

【注】此图向量和矩阵的维度与参考文献中相反了

我们得到的输出结果为长度为词汇总数的向量，如果想要第i个分量去表示当上下为context(w)时下一个词为词典中第i个词的概率，还需要softmax归一化，然后我们最初想要的结果便是：

$\LARGE p(w|Context(w))=\tfrac{e^{y_{index_{w}}}}{\sum_{i=1}^{D}e^{y_i}}$

注意：这只是取一个词w后输出的向量y，我们需要的就是通过训练集所有的词都做一遍这个过程来优化得到理想的W，q和U，b。

那么样本中最初的词向量如何获得呢？在参考文献[1]中有这样两段话：

目前我还没有彻底搞懂神经网络中具体的机制，所以暂时标记一下，初步推测是初始化一个矩阵或者可以粗暴地用one-hot（不过这样输入层的L=D，计算量大了很多），然后随着训练的过程，词向量也是不断更新的，详细还要参考最优化理论。

下面要说的Word2vec便是在NLM基础上的优化。

三、Word2vec

目前学习了解到的Word2vec有基于Hierarchical Softmax和基于Negative Sampling两种方式，参考文献[1]是从两种方式分别讲解了CBOW和Skip-gram的数学构建思路和过程，由于这两个模型是相反的过程，即CBOW是在给定上下文基础上预测中心词，Skip-gram在有中心词后预测上下文，我个人是把两个模型按照两种不同的计算方法做了梳理，当然数学推导还是一样的，只不过我自己看起来更舒服。在此再次感谢@peghoty大牛的详解。

3.1 CBOW

基于前面的介绍，CBOW的思想是取目标词w的上下文（前后相邻词）而不是仅之前的词作为预测前提，类似于共现矩阵的窗口，不同于NLM的是，Context(w)的向量不再是前后连接，而是求和，我们记为 $\large \mathbf{x}_w$ ，此外还将NLM的隐藏层去掉了。当然最大的区别还是在输出层，基于Hierarchical Softmax的CBOW输出层为一颗霍夫曼树，叶子节点为语料中的词汇，构建依据便是各词的出现频数；基于Negative Sampling则是用随机负采样代替霍夫曼树的构建。

3.1.1 基于Hierarchical Softmax

霍夫曼树的构建在这里就不展开说了，比较简单的算法。沿用文献[1]的表示，基于Hierarchical Softmax的CBOW所要构建的霍夫曼树所需参数如下：

$\LARGE p^{w}$ ：从根结点到w对应结点的路径

$\LARGE n^{w}$ ：路径上包含结点个数

$\LARGE N_{1}^{w},N_{2}^{w},...,N_{n^{w}}^{w}$ ：到w路径上的的结点

$\LARGE d_{2}^{w},d_{3}^{w},...,d_{n^w}\in \{0,1\}$ ：结点编码，根结点不编码

$\LARGE \theta _{1}^{w},\theta _{2}^{w},...,\theta _{n^w-1}^{w}\in \mathbb{R}^L$ ：非叶子结点（包括根结点）对应的向量

霍夫曼树构建按照频数大小有左右两种，其实都是自己约定的，在这里就不麻烦了，构建后左结点编码为0，为正类，右结点为1，为负类。

根据逻辑回归，一个结点被分为正类的概率为

$\LARGE \sigma (\mathbf{x}_{w}^{\top}\theta_{i}^{w})=\tfrac{1}{1+e^{-\mathbf{x}_{w}^{\top}\theta_{i}^{w}}}$

$\LARGE \sigma$ 的一些性质，后面用的到：

$\LARGE 1-\sigma(x)=\sigma(-x)$

所以之前我们要构造的目标函数就可以写为以下形式：

$\LARGE p(w|Context(w))=\prod_{i=2}^{N^w}p(d_{i}^{w}|\mathbf{x}_w,\theta_{i-1}^{w})$

这个公式跟之前看的概率图模型有点像，不过现在有点记不清了，后面我再梳理一下，看看能不能串起来。其中

$\LARGE p(d_{i}^{w}|\mathbf{x}_w,\theta_{i-1}^{w})=\left\{\begin{matrix}\sigma(\mathbf{x}_{w}^{\top}\theta_{i-1}^{w}), d_i^w=0; \\ \\1-\sigma(\mathbf{x}_{w}^{\top}\theta_{i-1}^{w}),d_i^w=1. \end{matrix}\right.$

整体表达式

$\LARGE p(d_{i}^{w}|\mathbf{x}_w,\theta_{i-1}^{w})=[\sigma(\mathbf{x}_{w}^{\top}\theta_{i-1}^{w})]^{1-d_i^w}\ast [1-\sigma(\mathbf{x}_{w}^{\top}\theta_{i-1}^{w})]^{d_i^w}$

这是一个单词，我们把对连乘做对数似然函数，然后将语料中所有单词都求和，则目标函数如下：

$\large \L =\sum_{w\in C}\sum_{i=2}^{N^w}\{(1-d_i^w)\log[\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]+d_i^w\log[1-\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]\}$

明确参数有 $\large x$ 和 $\large \theta$ ，我们取其中子式来做关于两个参数的梯度：

$\large \frac{\partial \L (w,i)}{\partial \theta_{i-1}^w}=\frac{\partial }{\partial \theta_{i-1}^w}\{(1-d_i^w)\log[\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]+d_i^w\log[1-\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]\}\\ \\ =(1-d_i^w)[1-\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]x_w+d_i^w\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)\mathbf{x}_w\\ \\ =[1-d_i^w-\sigma(x_w^{\top}\theta_{i-1}^w)]\mathbf{x}_w$

因为 $\large x$ 和 $\large \theta$ 是对称的，所以 $\large x$ 的为：

$\large \frac{\partial \L (w,i)}{\partial \mathbf{x}_w} =[1-d_i^w-\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]\theta_{i-1}^w$

所以两者就可以更新了:

$\LARGE \theta_{i-1}^w=\theta_{i-1}^w+\eta [1-d_i^w-\sigma(\mathbf{x}_w^{\top}\theta_{i-1}^w)]\mathbf{x}_w$

$\LARGE \mathbf{v}(\tilde{w})=\mathbf{v}(\tilde{w})+\eta\sum_{i=2}^{N^w}\frac{\partial \L (w,i)}{\partial \mathbf{x}_w},\tilde{w}\in Context(w)$

至此，我们完成了对参数的优化。

参考文献[1]提出了这样一个问题：

我的理解是可以的，可能我对最优化方法的学习还不够全面，从公式拆解上好像更能说的过去，但是对于收敛速度的影响可能会很大，取平均可能优化得到较好的结果较慢。

3.1.2 基于Negative Sampling

对于大规模语料，构建霍夫曼树的工作量是巨大的，而且叶子节点为N的霍夫曼数需要新添(N-1)个结点，而随着树的深度增加，参数计算的量也会增加很多很多，得到的词向量也会不够好，为此，Mikolov作出了优化，将构建霍夫曼树改为随机负采样方法。

对于给定的上下文Context(w)去预测w，如果从语料中就是存在（Context(w),w），那么w就是正样本，其他词就是负样本。

我们设负样本集为 $\large N(w)$ ，词的标签：

$\LARGE L^w(\tilde{w})=\left\{\begin{matrix} 1,\tilde{w}=w \\ 0,\tilde{w}\neq w \end{matrix}\right.$

即正样本标签为1，负样本标签为0，等同于霍夫曼结点的左右编码，只不过与其取值相反，这样后面的公式也就很好理解了：

$\LARGE g(w)=\sigma(\mathbf{x}_w^{\top}\theta ^w)\prod_{u \in N(w)}[1-\sigma(\mathbf{x}_w^{\top}\theta ^u)]$

同样,我们对两个参数求导：

$\LARGE \frac{\partial \L(w,u)}{\partial \theta^u}=[L^w(u)-\sigma(\mathbf{x}_w^{\top}\theta^{u})]\mathbf{x}_w$

$\LARGE \frac{\partial \L(w,u)}{\partial \mathbf{x}_w}=[L^w(u)-\sigma(\mathbf{x}_w^{\top}\theta^{u})]\theta^u$

然后更新参数，公式形式是一样的，不再写了。

可见，对于单词w，基于Hierarchical Softmax将其频数用来构建霍夫曼树，正负样本标签取自结点左右编码；而基于Negative Sampling将其频数作为随机采样线段的子长度，正负样本标签取自从语料中随机取出的词是否为目标词，构造复杂度小于前者。

3.2 Skip-gram

由于Skip-gram是CBOW的相反操作，输入输出稍有不同，在这里仅贴出关键公式，不再具体说明。

3.2.1 基于Hierarchical Softmax

以上均来自参考文献[1]，变量表示稍有不同。

3.2.2 基于Negative Sampling

这个作者分析较多，还没有完全看懂，后面再补

SOTA是什么意思？有奇妙能力吗 AI 知识分享自然语言处理人工智能 ai
最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。而Transformer是BERT取得成功的一个关键因素。谷歌的Transformer模型最早用于机器翻译任务，当时达到了SOTA效果。那么文中的SOTA效果，SOTA结果是什么意思呢?这里就来简单介绍一下定义：SO
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
LoRA 实战指南：NLP 与 CV 场景的高效微调方法全解析 fairymt 产品经理的AI秘籍自然语言处理人工智能机器学习
大模型已成AI应用的“标配”，但高昂的训练和部署成本让很多企业望而却步。LoRA（Low-RankAdaptation）作为一种轻量级微调方案，正成为NLP与CV场景中低成本定制的利器。本文详细通过详细介绍LoRA的核心原理、在文本与图像任务中的应用场景、主流工具框架与实践方式，帮助你快速掌握这项高性价比技术。国产生态实战：基于LLaMA-Factory+DeepSeek+LoRA+FastAPI
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
飞算JavaAI 2.0.0深度测评：自然语言编程如何重构开发生产力？知识产权13937636601 计算机 Java
摘要2025年自然语言编程（NLPProgramming）迎来工业化拐点，飞算JavaAI2.0.0以语义理解精度＞92%、企业级代码生成通过率＞87%的核心能力，正在重构Java开发范式。本文通过电商、金融、工业物联网三大场景实测，揭秘其如何实现需求描述到可部署代码的端到端转化。数据显示：复杂业务模块开发效率提升3-8倍，逻辑缺陷率降低70%，同时提供语义级安全审计、架构腐化预警等独家能力，为传
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
ali PaddleNLP docker 大熊程序猿 AI大模型 docker 容器运维
一、添加文件nano /root/projects/paddlenlp_similarity_server.pyfromflaskimportFlask,request,jsonifyimportpaddlefrompaddlenlpimportTaskflowimportjsonimportuuidapp=Flask(__name__)#初始化文本相似度模型similarity=Taskflow
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError:Using`low_cpu_mem_usage=True`ora`device_map`requiresAccelerate:`pipinstallaccelerate`pipinst
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
Jenkins JNLP与SSH节点连接方式对比及连接断开问题解决方案 tianyuanwo devops jenkins ssh 运维
一、JNLPvsSSH连接方式优缺点对比对比维度JNLP（JavaWebStart）SSH（SecureShell）核心原理代理节点主动连接Jenkins主节点，通过加密通道通信，支持动态资源分配。Jenkins通过SSH协议远程登录代理节点执行命令，需预先配置SSH服务。适用场景容器化环境（如Kubernetes）、需要跨平台或动态扩缩容的场景。传统物理机/虚拟机、静态节点或简单命令执行场景。安
用AI写一个自动记录手机支付记录的小插件教程python
要实现一个自动记录手机支付记录的小插件，核心是利用AI技术解析支付通知短信/通知栏消息。以下是通过训练让AI写代码实现方案：基础方案：手动输入+AI分类（无需权限）#使用Python+Tkinter（界面）+简易NLP分类importtkinterastkfromdatetimeimportdatetimeimportreclassPaymentTracker:def__init__(self):
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
【炼丹炉】Conda环境离线迁移黑白象炼丹笔记自然语言处理 pip python anaconda linux
1.背景笔者所在公司最近要在局域网内部署NLP算法模型，由于需求方对数据安全有严格要求，新服务器所在局域网不能直接访问Internet，因此需要将模型所需的运行环境离线迁移到新服务器中。2.方案2.1conda-packconda-pack是一个命令行工具，用于打包conda环境。该命令会将坏境中安装的软件包的二进制文件进行打包。注：本方法不需要下载安装包，因此，conda-pack需要指定平台和
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

自然语言处理(NLP)之Word Embedding

一、Word Embedding概述

二、Word2vec之前

2.1 one-hot

2.2 n-gram

2.3 co-occurrence matrix

2.4 NLM

三、Word2vec

3.1 CBOW

3.1.1 基于Hierarchical Softmax

3.1.2 基于Negative Sampling

3.2 Skip-gram

3.2.1 基于Hierarchical Softmax

3.2.2 基于Negative Sampling

你可能感兴趣的:(NLP)