寒小阳

深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1

作者：寒小阳 && 龙心尘
时间：2016年6月
出处：http://blog.csdn.net/han_xiaoyang/article/details/51567822
http://blog.csdn.net/longxinchen_ml/article/details/51567960
声明：版权所有，转载请联系作者并注明出处

说明：本文为斯坦福大学CS224d课程的中文版内容笔记，已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

特别鸣谢：@Fantzy同学对部分内容翻译的帮助
课堂笔记：第一部分

春季2016

关键词：自然语言处理（NLP）.词向量（Word Vectors）.奇异值分解(Singular Value Decomposition). Skip-gram. 连续词袋（CBOW）,负采样样本（Negative Sampling）

这是本课程的第一节，我们会先介绍自然语言处理（NLP）的概念和NLP现在所面对问题；然后开始讨论用数学向量代表自然语言词组的设想。最后我们会讨论现行的词向量构造方法。

1. 自然语言处理简介

在最开始咱们先说说什么是NLP。NLP的目的是设计出算法，让计算机“懂得”人类的自然语言，从而为人类执行任务。这些任务分为几个难度等级，例如

容易的任务：

语法检查
关键词搜索
查找同义词

中等难度的任务：

从网站，文件或其他来源中提取信息

比较有挑战的任务：

机器翻译（例如：中译英）
语意分析（提问者说的意思是什么）
指代分析（例如. “他”或“它”在一个特定文件中指的是什么）
回答问题（例如.回答“Jeopardy Questions”一种涉及人类社会各个方面的综艺问答）

在处理所有NLP任务的时候，我们首先需要解决非常重要的一个问题(可能是最重要的)：用什么方式将词组输入到模型中去。简单的NLP问题可能并不需要将词组作为独立个体对待（atomic symbols），但现在的问题绝大多数需要这样一个预处理，来体现词组之间关联/相似性和区别。所以我们引入词向量的概念，如果把词编码成词向量，我们很容易从向量的角度去衡量不同的词之间的关联与差异（常用的距离测度法，包括Jaccard, Cosine, Euclidean等等，注：距离测度法，即用一个可观测度量的量来描述一个不能直接观测度量的量）。

2.词向量

我们拿英文举例。

英语中大约有1300万个词组（token，自定义字符串，译作词组），不过他们全部是独立的吗？并不是哦，比如有一些词组，“Feline猫科动物”和“Cat猫”，“Hotel宾馆“和”Motel汽车旅馆”，其实有一定的关联或者相似性在。因此，我们希望用词向量编码词组，使它代表在词组的N维空间中的一个点（而点与点之间有距离的远近等关系，可以体现深层一点的信息）。每一个词向量的维度都可能会表征一些意义（物理含义），这些意义我们用“声明speech”来定义。例如，语义维度可以用来表明时态（过去与现在与未来），计数（单数与复数），和性别（男性与女性）。

说起来，词向量的编码方式其实挺有讲究的。咱们从最简单的看起，最简单的编码方式叫做one-hot vector：假设我们的词库总共有n个词，那我们开一个1*n的高维向量，而每个词都会在某个索引index下取到1，其余位置全部都取值为0.词向量在这种类型的编码中如下图所示：

w a a r d c a r k = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, w a = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 010 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ w a t = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 001 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \dots w z e b r a = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 000 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

这种词向量编码方式简单粗暴，我们将每一个词作为一个完全独立的个体来表达。遗憾的是，这种方式下，我们的词向量没办法给我们任何形式的词组相似性权衡。例如:

(w h o t e l) T w m o t e l = (w h o t e l) T w c a t = 0

（注：这里

W−1 是

W 的逆矩阵，它们有关系：

W−1∗W=1 ，注意到hotel和motel是近义词）

究其根本你会发现，是你开了一个极高维度的空间，然后每个词语都会占据一个维度，因此没有办法在空间中关联起来。因此我们可能可以把词向量的维度降低一些，在这样一个子空间中，可能原本没有关联的词就关联起来了。

3.基于SVD的方法

这是一种构造词嵌入（即词向量）的方法，我们首先会遍历所有的文本数据集，然后统计词出现的次数，接着用一个矩阵 X 来表示所有的次数情况，紧接着对X进行奇异值分解得到一个 USVT 的分解。然后用 U 的行（rows）作为所有词表中词的词向量。对于矩阵 X ，我们有几种选择，咱们一起来比较一下。

3.1 词-文档矩阵

最初的想法是，我们猜测相互关联的词组同时出现在相同的文件中的概率很高。例如，“银行”、“债券”、“股票”、“钱”等都可能出现在一起。但是，“银行”、“章鱼”、“香蕉”和“曲棍球”可能不会一直一起出现。基于这个想法，我们建立一个词组文档矩阵 X ，具体是这么做的：遍历海量的文件，每次词组i出现在文件j中时，将 Xij 的值加1。不过大家可想而知，这会是个很大的矩阵 R|V|×M ，而且矩阵大小还和文档个数M有关系。所以咱们最好想办法处理和优化一下。

3.2 基于窗口的共现矩阵X

我们还是用一样的逻辑，不过换一种统计方式，把矩阵 X 记录的词频变成一个相关性矩阵。我们先规定一个固定大小的窗口，然后统计每个词出现在窗口中次数，这个计数是针对整个语料集做的。可能说得有点含糊，咱们一起来看个例子，假定我们有如下的3个句子，同时我们的窗口大小设定为1（把原始的句子分拆成一个一个的词）：
1. I enjoy flying.
2. I like NLP.
3. I like deep learning.
由此产生的计数矩阵如下：

然后我们对X做奇异值分解，观察观察奇异值（矩阵的对角元素），并根据我们期待保留的百分比来进行阶段（只保留前k个维度）：

然后我们把子矩阵 U1:|V|,1:k 视作我们的词嵌入矩阵。也就是说，对于词表中的每一个词，我们都用一个k维的向量来表达了。

对X采用奇异值分解

通过选择前K个奇异向量来进行降维：

这两种方法都能产生词向量，它们能够充分地编码语义和句法的信息，但同时也带来了其他的问题：

矩阵的维度会经常变化（新的词语经常会增加，语料库的大小也会随时变化）。
矩阵是非常稀疏的，因为大多数词并不同时出现。
矩阵的维度通常非常高（ ≈106×106 ）
训练需要 O(n2) 的复杂度（比如SVD）
需要专门对矩阵X进行特殊处理，以应对词组频率的极度不平衡的状况

当然，有一些办法可以缓解一下上述提到的问题：

忽视诸如“he”、“the” 、“has”等功能词。
应用“倾斜窗口”（ramp window），即:根据文件中词组之间的距离给它们的共现次数增加相应的权重。
使用皮尔森的相关性（Pearson correlation），将0记为负数，而不是它原来的数值。

不过缓解终归只是缓解，咱们需要更合理地解决这些问题，这也就是我们马上要提到的基于迭代的方法。

4.基于迭代的方法

现在我们退后一步，来尝试一种新的方法。在这里我们并不计算和存储全局信息，因为这会包含太多大型数据集和数十亿句子。我们尝试创建一个模型，它能够一步步迭代地进行学习，并最终得出每个单词基于其上下文的条件概率。

词语的上下文：
一个词语的上下文是它周围C个词以内的词。如果C=2，句子"The quick brown fox jumped over the lazy dog"中单词"fox"的上下文为 {"quick", "brown", "jumped", "over"}.

我们想建立一个概率模型，它包含已知和未知参数。每增加一个训练样本，它就能从模型的输入、输出和期望输出（标签），多学到一点点未知参数的信息。

在每次迭代过程中，这个模型都能够评估其误差，并按照一定的更新规则，惩罚那些导致误差的参数。这种想法可以追溯到1986年（Learning representations by back-propagating errors. David E. Rumelhart, Geoffrey E. Hinton, and Ronald J.Williams (1988)），我们称之为误差“反向传播”法。

4.1 语言模型（1-gram,2-gram等等）

首先，我们需要建立一个能给“分词序列”分配概率的模型。我们从一个例子开始：

"The cat jumped over the puddle."（猫跳过水坑）

一个好的语言模型会给这句话以很高的概率，因为这是一个在语法和语义上完全有效的句子。同样地，这句”stock boil fish is toy”（股票煮鱼是玩具）就应该有一个非常低的概率，因为它是没有任何意义的。在数学上，我们可以令任意给定的n个有序的分词序列的概率为：

P (w 1, w 2, w 3 . . . w n)

我们可以采用一元语言模型。它假定词语的出现是完全独立的，于是可以将整个概率拆开相乘：

P (w 1, w 2, w 3 . . . w n) = \prod i = 1 N P (w i)

看到这里，肯定很多同学就要喷了，这不对，词和词之间没有关联吗？确实，我们知道一句话中每一个词语都跟它前面的词语有很强的依赖关系，忽略这一点的话，一些完全无意义的句子，可能会有很高的概率。咱们稍微改一改，让一个词语的概率依赖于它前面一个词语。我们将这种模型称作bigram（2-gram，二元语言模型），表示为：

P (w 1, w 2, w 3 . . . w n) = \prod i = 2 N P (w i | w i - 1)

看起来还是有点简单？恩，也对，我们只考虑一个词语依赖于其相邻的一个词语的关系，而不是考虑其依赖整个句子的情况。别着急，接下来将会看到，这种方法能让我们有非常显著的进步。考虑到前面 “词-词”矩阵的情况，我们至少可以算出两个词语共同出现的概率。但是，旧话重提，这仍然要求储存和计算一个非常的大数据集里面的全部信息。
现在我们理解了“分词序列”的概率（其实就是N-gram语言模型啦），让我们观察一些能够学习到这些概率的例子。

4.2 连续词袋模型（CBOM）

有种模型是以{“The”, “cat”, ’over”, “the’, “puddle”}为上下文，能够预测或产生它们中心的词语”jumped”，叫做连续词袋模型。

上面是最粗粒度的描述，咱们来深入一点点，看点细节。

首先，我们要建立模型的一些已知参数。它们就是将句子表示为一些one-hot向量，作为模型的输入，咱们记为x(c)吧。模型的输出记为y(c)吧。因为连续词袋模型只有一个输出，所以其实我们只需记录它为y。在我们上面举的例子中，y就是我们已经知道的（有标签的）中心词（如本例中的”jumped”）。

好了，已知参数有了，现在我们一起来定义模型中的未知参数。我们建立两矩阵， V∈Rn∗|V| 和 U∈R|V|∗n 。其中的n是可以任意指定的，它用来定义我们“嵌入空间”（embedding space）的维度。V是输入词矩阵。当词语 wi （译注： wi 是只有第i维是1其他维是0的one-hot向量）作为模型的一个输入的时候，V的第i列就是它的n维“嵌入向量”（embedded vector）。我们将V的这一列表示为 vi 。类似的，U是输出矩阵。当 wj 作为模型输出的时候，U的第j行就是它的n维“嵌入向量”。我们将U的这一行表示为 uj 。要注意我们实际上对于每个词语 wi 学习了两个向量。（作为输入词的向量 vi ，和作为输出词的向量 uj ）。

连续词袋模型（CBOM）中的各个记号：

wi :单词表V中的第i个单词
v∈Rn∗|V| ：输入词矩阵
vi ：V的第i列，单词 wi 的输入向量
u∈R|V|∗n ：输出词矩阵
ui ：U的第i行，单词 wi 的输出向量

那这个模型是如何运作的呢？我们把整个过程拆分成以下几步：

对于m个词长度的输入上下文，我们产生它们的one-hot向量（ x(c−m),⋯,x(c−1),x(c+1),⋯,x(c+m) ）。
我们得到上下文的嵌入词向量（ vc−m+1=Vx(c−m+1),⋯, v_{c+m}=Vx^{(c+m)}）
将这些向量取平均 v̂ =vc−m+vc−m+1+⋯+vc+m2m
产生一个得分向量 z=Uv̂
将得分向量转换成概率分布形式 ŷ =softmax(z)
我们希望我们产生的概率分布 ,与真实概率分布 ŷ 相匹配。而 y 刚好也就是我们期望的真实词语的one-hot向量。

用一幅图来表示就是下面这个样子：

通过上面说的种种步骤，我们知道有了矩阵U、V整个过程是如何运作的，那我们怎样找到U和V呢？——我们需要有一个目标函数。通常来说，当我们试图从已知概率学习一个新的概率时，最常见的是从信息论的角度寻找方法来评估两个概率分布的差距。其中广受好评又广泛应用的一个评估差异/损失的函数是交叉熵：

H (y ̂, y) = - \sum j = 1 | V | y j l o g (y ̂ j)

结合我们当下的例子，y只是一个one-hot向量，于是上面的损失函数就可以简化为：

H (y ̂, y) = - y i l o g (y ̂ i)

我们用c表示y这个one-hot向量取值为1的那个维度的下标。所以在我们预测为准确值的情况下 ŷ c=1 。于是损失为 −1 log(1) = 0。所以对于一个理想的预测值，因为预测得到的概率分布和真实概率分布完全一样，因此损失为0。现在让我们看一个相反的情况，也就是我们的预测结果非常不理想，此时 ŷ c=0.01 。计算得到的损失为−1 log(0.01) ≈ 4.605，损失非常大，原本这才是标准结果，可是你给了一个非常低的概率，因此会拿到一个非常大的loss 。可见交叉熵为我们提供了一个很好的衡量两个概率分布的差异的方法。于是我们最终的优化函数为：

我们用梯度下降法去更新每一个相关的词向量

uc 和

vj 。

4.3 Skip-Gram 模型

很上面提到的模型对应的另一种思路，是以中心的词语”jumped”为输入，能够预测或产生它周围的词语”The”, “cat”, ’over”, “the”, “puddle”等。这里我们叫”jumped”为上下文。我们把它叫做Skip-Gram 模型。
这个模型的建立与连续词袋模型（CBOM）非常相似，但本质上是交换了输入和输出的位置。我们令输入的one-hot向量（中心词）为x（因为它只有一个），输出向量为y(j)。U和V的定义与连续词袋模型一样。

Skip-Gram 模型中的各个记号：

wi :单词表V中的第i个单词
v∈Rn∗|V| ：输入词矩阵
vi ：V的第i列，单词 wi 的输入向量
u∈R|V|∗n ：输出词矩阵
ui ：U的第i行，单词 wi 的输出向量

对应到上面部分，我们可以把Skip-Gram 模型的运作方式拆分成以下几步：

生成one-hot输入向量x。
得到上下文的嵌入词向量 vc=Vx 。
因为这里不需要取平均值的操作，所以直接是 v̂ =vc 。
通过 u=Uvc 产生2m个得分向量 uc−m,⋯,uc−1,uc+1,⋯,u(c+m) 。
将得分向量转换成概率分布形式 y=softmax(u) 。
我们希望我们产生的概率分布与真实概率分布 yc−m,⋯,yc−1,,yc+1⋯,yc+m 相匹配，也就是我们真实输出结果的one-hot向量。

用一幅图来表示这个过程如下：

像连续词袋模型一样，我们需要为模型设定一个目标/损失函数。不过不同的地方是我们这里需要引入朴素贝叶斯假设来将联合概率拆分成独立概率相乘。如果你之前不了解它，可以先跳过。这是一个非常强的条件独立性假设。也就是说只要给出了中心词，所有的输出词是完全独立的。

我们可以用随机梯度下降法去更新未知参数的梯度。

4.4 负面抽样（Negative Sampling）

我们再次观察一下目标函数，注意到对整个单词表|V|求和的计算量是非常巨大的，任何一个对目标函数的更新和求值操作都会有O(|V|)的时间复杂度。我们需要一个思路去简化一下，我们想办法去求它的近似。
对于每一步训练，我们不去循环整个单词表，而只是抽象一些负面例子就够了！我们可以从一个噪声分布 (Pn(w)) 中抽样，其概率分布与单词表中的频率相匹配。为了将描述问题的公式与负面抽样相结合，我们只需要更新我们的：

目标函数
梯度
更新规则

Mikolov ET AL.在他的《Distributed Representations of Words and Phrases and their Compositionality》中提出了负面抽样。虽然负面抽样是基于Skip-Gram 模型，它实际上是对一个不同的目标函数进行最优化。考虑一个“词-上下文”对（w,c），令P(D = 1|w, c)为(w, c)来自于语料库的概率。相应的，P(D = 0|w, c) 则是不来自于语料库的概率。我们首先对P(D = 1|w, c)用sigmoid函数建模：

p (D = 1 | w, c, θ) = 1 1 + e ( - v T c v w )

现在我们需要建立一个新的目标函数。如果(w, c)真是来自于语料库，目标函数能够最大化P(D = 1|w, c)。反之亦然。我们对这两个概率采用一个简单的最大似然法。（这里令θ为模型的参数，在我们的例子中，就是对应的U和V。）

注意这里的 D˜ 表示“错误的”或者“负面的”语料库，像句子”stock boil fish is toy”就是从这样的语料库来的。不自然的句子应该有比较低的发生概率，我们可以从词库中随机采样来产生这样的“负面的”语料库。我们的新目标函数就变成了：

l o g σ (u (c - m + j) T . v c) + \sum k = 1 K l o g σ (- u ˜ T k . v c)

在这里 {u˜k|k=1,⋯,K} 是从(Pn(w))中抽样取到的。需要多说一句的是，虽然关于怎么样最好地近似有许多讨论和研究，但是工作效果最好的似乎是指数为3/4的一元语言模型。至于为什么是3/4，下面有几个例子来帮助大家感性地理解一下：

i s : 0.9 3 / 4 = 0.92 c o n s t i t u t i o n : 0.09 3 / 4 = 0.16 b o m b a s t i c : 0.01 3 / 4 = 0.032

你看，经过3/4这样一个指数处理，”Bombastic”(少见)被采样的概率是之前的3倍，而“is”这个词(多见)被采样的概率只是稍微增长了一点点。

AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
【大模型】从零样本到少样本学习：一文读懂 Zero-shot、One-shot 和 Few-shot 的核心原理与应用！橙子小哥的代码世界 NLP自然语言理解大模型自然语言处理 sklearn 深度学习神经网络 tensorflow
《从零样本到少样本学习：一文读懂Zero-shot、One-shot和Few-shot的核心原理与应用！》正文：在自然语言处理（NLP）领域，Zero-shot、One-shot和Few-shot学习已经成为衡量大语言模型泛化能力的重要指标。尤其是在大规模预训练模型（如GPT系列）的推动下，这些技术得到了广泛应用和关注。本篇文章将带你全面了解这三种学习方法的核心概念、原理和实际应用场景。1.什么是
详解AI大模型的主要指标与国内常见大模型对比分析 wit_@ 人工智能 AIGC 语言模型 ai 大数据服务器
AI大模型的主要指标与国内常见大模型对比分析随着人工智能技术的快速发展，大模型（LargeAIModels）在自然语言处理、计算机视觉和多模态任务中取得了突破性进展。对于选择和评价AI大模型，不仅需要关注其功能，还要理解其关键指标和性能表现。本文将详细分析AI大模型的主要评价指标，并对国内常见大模型进行具体对比，提供实际数值和深度解析。一、AI大模型的主要指标AI大模型的性能和实用性通常通过以下指
知识图谱语义搜索：构建智能化搜索未来 cooldream2009 AI技术知识图谱知识图谱人工智能
目录前言1.知识图谱语义搜索的基础概念1.1什么是知识图谱1.2什么是语义搜索1.3知识图谱语义搜索的结合2.知识图谱语义搜索的核心技术2.1自然语言处理技术2.2知识图谱构建与管理2.3图数据库与查询技术3.知识图谱语义搜索的应用场景3.1智能问答系统3.2个性化推荐3.3专业领域信息检索4.知识图谱语义搜索的未来展望4.1技术挑战4.2应用趋势结语前言随着信息技术的飞速发展，数据量呈现爆炸式增
精确掌控文本分割——利用CharacterTextSplitter轻松拆解长文档 afTFODguAKBF python
在处理大型文本文件时，尤其是在自然语言处理和文本分析领域，有时候需要将文档分割成较小的段落以便于处理和分析。今天，我们来探讨如何使用langchain-text-splitters库中的CharacterTextSplitter来实现这一目标。引言在本文中，我将介绍如何使用CharacterTextSplitter分割大型文本文档。这种技术对于文本预处理非常重要，能够帮助我们更好地管理和分析文本数
利用Langchain与Minimax进行自然语言处理的精彩指南 afTFODguAKBF langchain 自然语言处理 easyui python
#引言在人工智能的浪潮中，自然语言处理（NLP）成为了企业和个人用户的重要工具。Minimax作为一家中国初创企业，专注于提供优秀的语言模型服务。本篇文章将介绍如何使用Langchain库与Minimax进行交互，帮助开发者充分利用这一强大的AI工具。#主要内容##1.Minimax简介Minimax专注于自然语言处理，为企业和个人用户提供高效的语言模型服务。其API能处理多种自然语言任务，例如文
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
ChatGPT原理及其应用场景编程小郭 chatgpt 人工智能 ai
ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理（NLP）的深厚功底。其工作原理可以从以下几个方面进行解析：GPT系列模型基础ChatGPT基于GPT（GenerativePre-trainedTransformer）技
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）青云交大数据新视界 Java 大视界大数据文本分析自然语言处理文本挖掘机器翻译智能对话智能客服 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Python调用通义千问qwen2.5模型步骤我就是全世界 python 人工智能
Qwen2.5模型简介1.1模型概述Qwen2.5是阿里云推出的一款超大规模语言模型，它基于阿里巴巴达摩院在自然语言处理领域的研究和积累。Qwen2.5系列模型采用了更先进的算法和优化的模型结构，能够更准确地理解和生成自然语言、代码、表格等文本。除了基本的文本生成和问答能力，Qwen2.5还支持更多的定制化需求，可以针对不同场景和应用进行扩展和定制，提供更加个性化的服务和解决方案。1.2模型特点Q
从零开始:在服务器上部署大模型并集成到 vscode +Cline使用一个正经的AI 服务器 vscode 运维 AI编程
1.引言(Introduction)欢迎来到本篇技术博客！在本文中，我将引导你一步一步地在阿里云服务器上部署Qwen大模型，并将其集成到Cline插件中。我们将从零开始，详细介绍每个步骤，确保即使是初学者也能轻松上手。近年来，大型语言模型（LLMs）展现出了强大的自然语言处理能力，吸引了越来越多的关注。Qwen系列模型是阿里巴巴开源的一系列强大的大语言模型，具有优秀的性能和广泛的应用场景。Olla
吴恩达系列——微调（Fine-tuning）与生成模型的应用疯狂小料 ai prompt
微调（Fine-tuning）是指在已有预训练模型的基础上，对模型进行进一步训练，以适应特定任务或需求。在自然语言处理领域，生成模型通过微调可以在特定场景下生成更加准确、一致的输出，同时保护用户的隐私，减少不当信息的泄露。本文将结合生成模型的工作原理和实际应用，解释微调如何提升生成模型的效果，并探讨其在保护隐私方面的优势。1.生成模型与Prompt的作用生成模型，如GPT系列，通常通过接受一个输入
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析少林码僧 AI大模型应用实战专栏自然语言处理 gpt bert
走向不同：GPT与BERT的选择——两大NLP模型的深度解析在自然语言处理（NLP）领域，GPT（GenerativePretrainedTransformer）和BERT（BidirectionalEncoderRepresentationsfromTransformers）无疑是最具代表性和影响力的两个模型。它们都基于Transformer架构，但在设计理念、任务应用和训练方式等方面存在显著差
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
ACL 2024 | 美团技术团队精选论文解读美团算法人工智能
本文精选了美团技术团队被ACL2024收录的4篇论文进行解读，论文内容覆盖了训练成本优化、投机解码、代码生成优化、指令微调（IFT）等技术领域。这些论文是美团技术团队跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。ACL是计算语言学和自然语言处理领域最重要的顶级国际会议，由国际计算语言学协会组织，每年举办一次。据谷歌学术计算语言学刊物指标显示，ACL影响力位列第一，是
《解锁鸿蒙系统AI与第三方应用集成的无限可能》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统与人工智能技术的深度融合为应用开发带来了前所未有的机遇和挑战。如何让鸿蒙系统中的人工智能服务与第三方应用实现更好的集成，成为了开发者们关注的焦点。利用鸿蒙系统内置的人工智能服务鸿蒙系统提供了丰富的人工智能服务，如语音助手、视觉识别、自然语言处理等。开发者可以直接调用这些服务，无需从头开始研发。例如，在开发一款阅读类应用时，可以调用自然语言处理服务实现智能朗读功能，
ChatGPT 网络配置问题解决方案 IPdodo全球网络服务 chatgpt 网络
随着人工智能技术的飞速发展，基于GPT架构的聊天机器人，如ChatGPT，已经在多个领域获得了广泛应用。其强大的自然语言处理能力为用户带来了便捷的交互体验。然而，在实际使用过程中，尤其是在部署和访问时，用户可能会遇到网络配置方面的一些问题，这些问题往往会影响ChatGPT的响应速度、稳定性甚至是可用性。一、ChatGPT网络配置问题的常见原因1.网络连接不稳定网络连接的稳定性是影响ChatGPT使
好用的算法推荐工具全解析 CodeJourney. 算法
一、引言在当今数字化时代，算法广泛应用于各个领域，从搜索引擎优化到金融风险预测，从图像识别到自然语言处理。对于算法学习者、研究者以及开发者而言，合适的算法推荐工具至关重要。它们不仅能帮助理解算法原理，还能在实际应用中提供高效的解决方案。接下来，我们将详细介绍多种好用的算法推荐工具。二、算法可视化工具（一）VisuAlgo功能特点-动态演示：VisuAlgo能够以动态的方式展示各类算法的执行过程。例
如何学习Transformer架构 fydw_715 Transformers 学习 transformer 架构
Transformer架构自提出以来，在自然语言处理领域引发了革命性的变化。作为一种基于注意力机制的模型，Transformer解决了传统序列模型在并行化和长距离依赖方面的局限性。本文将探讨Transformer论文《AttentionisAllYouNeed》与HuggingFaceTransformers库之间的关系，并详细介绍如何利用HuggingFaceTransformers的代码深入学
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj