一心想做工程师

从One-Hot到Bert，综述wordEmbedding技术的前世今生

本文在前辈的帮助下，对从one-hot到bert的一系列wordEmbedding技术进行整理。能力有限，期待得到大佬们的指正。

One-Hot Encoding

Neural Network Language Model

NNLM如何解决泛化能力的问题？

word2vec

Glove

RNN（LSTM/GRU）

seq2seq

Attention机制

如何解决单向信息流问题?

Self-Attention

MultiHead

Transformer

Transformer位置编码

ELMO

OpenAI GPT

Bert

1. Masked LM (MLM)

2. Next Sentence Prediction (NSP)

wordEmbedding的一些简介

wordEmbedding:将一个词映射到语义空间（低维稠密空间）中的一个点，使得语义上比较相似的词，在空间上有比较相近的距离。

比如word2vec方法可以学到一些词与词之间的关系，如人物关系，时态关系，国家首都之间的关系等。

wordEmbedding学到的词向量可以用于下游任务。（如作为特征或作为初始的词向量Fine-Tuning）

我们知道一个词的语义是上下文相关的，脱离上下文而编码某个词的语义会显得很片面。

假设某个词在语料库内有多种语义，这时候强行用一个向量来编码某个词语义的话，我们只能将多种语义都编码在一个向量里面，但是很显然，一个句子里，某个词只会存在一种语义。

最开始我们用one-hot,N-gram,后来用word2vec,glove等来生成词向量。这些方法或多或少都没有考虑到上下文的关系。

对于上下文的语义编码，我们借助RNN/LSTM/GRU来进行，这些序列的网络能够记忆之前的历史信息，记录一些相关的语义，但也存在某些问题（比如梯度消失等）。

我们可以用两个RNN组成seq2seq模型，用来实践翻译，摘要，问答和对话系统等挑战。seq2seq有encoder模型负责将数据进行编码，生成context向量，接着decoder模型将context向量进行解码，输出对应的目标。同时对于seq2seq模型的改进我们还有attention机制和transformer等。但是以上这些监督学习的模型，都存在这数据量不足等问题，无法学到完整的复杂的上下文表示。于是无监督(或半监督)的 contextual word embedding 应运而生。比如ELMO，OpenAI GPT，BERT等，用以生成词的向量表示，并同时考虑上下文信息。

One-Hot Encoding

one-hot词向量是一个高维稀疏的表示，由于具有正交性，one-hot词向量无法表达不同词之间的相似度。例如，任何一对词的one-hot向量的余弦相似度都为0。

比如一个具有四个词的句子，讲词向量用one-hot表示如图所示：

Neural Network Language Model

神经网络语言模型做这样的工作：

给定一个句子S,包含个词，可以按如下方式计算句子的概率：

$P(S) = p(w_{1},...,w_{k}) = \prod_{k=1}^{K}(w_{k}|w_{k-1},...,w_{1})$

在神经网络语言模型之前，主流的统计语言模型是N-gram，该方法基于词的历史( $w_{1},...,w_{k-1}$ )来预测当前的词 $w_{k}$ 。关于N-gram可以参考这里。

但是N-gram既不能解决长距离依赖的问题，也不能共享上下文（如果训练预料里面未出现某词，或出现很少，尽管该词在现领域中很重要，他的weight也会很低）。比如我们的语料是：1、我要去北京。2、我要去北京。3、北京和天津是中国的城市。4、北京和天津是大城市。那么训练出来后，返回我要去北京的概率就很大，我要去上海的概率就会很小，甚至没有。

神经网络模型基于当前的词（比如说["我","要","去"]），先将当前的词变成词向量，做向量拼接，接tanh层和一些线性层，最后通过softmax来判断出现第四个词（比如说["北京"]）的概率。

NNLM如何解决泛化能力的问题？

假设我们的语料是：1、我要去北京。2、我要去北京。3、北京和天津是中国的城市。4、北京和天津是大城市。假设我们的训练数据是["我","要","去"]，output是北京。因为别的语料（3、4、5）上下文中有北京和天津类似的出现，那么在预测时，输入["我","要","去"]，output是天津的概率也会比较大。

神经网络训练好之后，我们随之也得到了他的副产品，即我们的词向量。（刚开始训练的时候，神经网络的输入可以是随机的词向量，也可以是one-hot）

word2vec

2013年，Google团队发表了word2vec工具。算法基于两个词的上下文相似，则他们的语义也相似-------这一假设（分布式假设）。

word2vec工具主要包含两个模型：跳字模型（skip-gram）和连续词袋模型（continuous bag of words，简称CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序softmax（hierarchical softmax）。值得一提的是，word2vec词向量可以较好地表达不同词之间的相似和类比关系。关于word2vec可以参考这里。

Glove

Glove模型首先基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型学习词向量。关于Glove可以参考这里。

RNN（LSTM/GRU）

正如前面提到的，词向量编码，会将词的所有语义编码进向量。而一个句子中，词的语义往往只有一个。这时候，有记忆能力的RNN模型大有可为。我们知道RNN容易造成梯度消失，由于梯度消失，很难学到长距离的依赖关系，LSTM通过门的机制来避免梯度消失。GRU在LSTM上作一些改进来提高效率。（把遗忘门和输入门合并成一个更新门）关于RNN可以参考这里。

seq2seq

很多时候我们面对的是句子输入输出长度不一致的情况，这时一个RNN已经无法满足要求，我们需要seq2seq来完成某些任务。比如机器翻译，文本摘要等。

Attention机制

然而试图用一个Encoder state向量来编码整个输入语义是很困难的。具体的细节，我们往往需要参考原来的信息，所以我们引入attention机制。关于attention可以参考这里。

在Decoder进行t时刻计算的时候，除了t-1时刻的隐状态，当前时刻的输入，注意力机制还可以参考Encoder所有时刻的输入。拿机器翻译来说，我们在翻译以句子的第t个词的时候会把注意力机制在某个词上。当然常见的注意力是一种soft的注意力，假设输入有5个词，注意力可能是一个概率，比如(0.6,0.1,0.1,0.1,0.1)，表示当前最关注的是输入的第一个词。同时我们之前也计算出每个时刻的输出向量，假设5个时刻分别是 $y_{1},...,y_{5}$ ,那么我们可以用attention概率加权得到当前时刻的context向量 $0.6y_{1}+0.1y_{2}+...+0.1y_{5}$ 。

注意力有很多方法计算，我们这里介绍Luong等人在论文提出的方法。它是用当前时刻的GRU计算出的新的隐状态来计算注意力得分，首先它用一个score函数计算这个隐状态和Encoder的输出的相似度得分，得分越大，说明越应该注意这个词。然后再用softmax函数把score变成概率。那机器翻译为例，在t时刻， $h_{t}$ 表示t时刻的GRU输出的新的隐状态，我们可以认为 $h_{t}$ 表示当前需要翻译的语义。通过计算 $h_{t}$ 与 $y_{1},...,y_{5}$ 的得分，如果 $h_{t}$ 与 $y_{t}$ 的得分很高，那么我们可以认为当前主要翻译词x1x1的语义。有很多中score函数的计算方法，如下图所示：

上式中 $h_{t}$ 表示t时刻的隐状态，比如第一种计算score的方法，直接计算 $h_{t}$ 与 $h_{s}$ 的内积，内积越大，说明这两个向量越相似，因此注意力也更多的放到这个词上。第二种方法也类似，只是引入了一个可以学习的矩阵，我们可以认为它先对 $h_{t}$ 做一个线性变换，然后在与 $h_{s}$ 计算内积。而第三种方法把它们拼接起来然后用一个全连接网络来计算score。

注意，我们前面介绍的是分别计算 $h_{t}$ 和 $y_{1}$ 的内积、 $h_{t}$ 和 $y_{2}$ 的内积，…。但是为了效率，可以一次计算 $h_{t}$ 与 $h_{s}=[y_{1},y_{2},...,y_{n}]$ 的乘积。计算过程如下图所示。

如何解决单向信息流问题?

RNN有时序依赖，后面一个时刻必须基于前一个时刻进行训练，无法并行。所以一般训练都比较耗时。

另外我们编码一个词的语义的时候，其实是要考虑整个句子的上下文，光看前面（RNN）或者光看后面（逆向RNN）都是不全面的。

这个时候我们需要self-attention 和 Transformer。

Self-Attention

考虑这样一个问题，对于下面这个句子：

”The animal didn't cross the street because it was too tired”

其中"it"指代什么？是animal ？还是street ？

上文指出，self-attention根据句子的位置信息找出对该单词更好的编码的线索。

self-attention向量的计算:

假设我们的输入是两个单词组成的句子：

首先，根据词的embedding(),和三个矩阵（）分别构建三个vectors------ Query vector（ $q_{1},q_{2}$ ）, Key vector( $k_{1},k_{2}$ ), Value vector( $v_{1},v_{2}$ ).------利用矩阵乘法。注意：生成的向量比embedding向量的维度要小（论文中，embedding 长度为152，生成的Q，K, V为64）。

当我们计算"Thingking"的self-attention时，我们考虑的是整个句子的所有其他词相较于"Thingking"的attention score。这个score决定了在编码该词的时候，对句子的其他词的关注程度。

我们利用 $q_{1}$ 分别dot $k_{1},k_{2}$ ,获得两个值
再将这两个值除以向量长度的开方，也就是8（论文中描述，此步骤有助于引导稳定的梯度，也可以是其他的值，甚至可以省略这个步骤）。
经过softmax操作，将获得的两个值变成概率（ $p_{1},p_{2}$ ）。

显然，以上操作中，本位置的单词将具有最好的softmax值，但是，这样的操作依旧是有意义的，他有利于引导关注其他与当前单词更加相近的词。

我们将 $p_{1},p_{2}$ 分别乘以对应的 Value vector,并进行累加，得到向量 $z_{1}$ 。
依次计算其他词的向量 $z_{i}$ 。自此我们得到了self-attention layer。

当然我们可以利用矩阵的运算，更快的得到self-attention layer。

MultiHead

如果我们的值不一样，输出得到的z当然也就不一样，实际上，transfromer输入的self-attention layer 就是多个这样的“multi-headed” attention。假设我们生成8个heads.如是我们按照以上的方式计算8次，得到8个矩阵。

这里会有一个问题，在作Transformer时(ps：接下来我们会讲到Transformer的结构)，我们的 feed-forward layer（FFNN）只能接收一个矩阵（每个词对应的self-attention 向量集合），于是我们将得到的多个矩阵拼接起来，得到一个总矩阵（从本例看，我们最后得到的是一个2 * 24的矩阵），由于信息会有冗余，我们最后用一个（24 * 4）进行压缩，最后生成一个2 * 4 的矩阵z，然后喂给 feed-forward layer。

回顾整个计算过程如下图：

Transformer

摘录一段官网上的原文：

The Transformer – a model that uses attention to boost the speed with which these models can be trained. 
The Transformers outperforms the Google Neural Machine Translation model in specific tasks.
The biggest benefit, however, comes from how The Transformer lends itself to parallelization.

上文可以看出，transfromer的最大好处是实现了seq2seq的并行计算。文章请参考这里。

假设翻译一个句子，transfrom的结构如下：

在Transformer 中encoder是独立的，每一个encoder结构如下，数据先流入self-attention layer计算出self-attention vector，然后再流入FFNN layer。

我们举回"Thinking Machines"的例子。

输入首先Embedding 经过的是 self-attention ，得到self-Attention 向量喂给全连接网络（FFNN）。

值得一提的是，计算z的时候，整个句子的词Embedding都要参与计算，输入FFNN进行计算时，只需要输入单个的 $z_{i}$

经过底层的encoder输出的向量r直接给上一层的encoder使用。

Transformer位置编码

考虑下面两个句子：

北京到上海的机票

上海到北京的机票

当参数固定下来以后，transformer 对“北京”的编码是固定的（当然对“上海”也是一样）。但实际上，上面两个句子的语义是不一样的（一个是出发城市，一个是到达城市）。有时候，顺序关系比较重要。于是，transformer引入位置编码，如下图，数据在进入encoder之前，先结合一次位置编码。

位置编码（positional encodings）有很多种方式，其中一种就是绝对的位置编码，一种是相对位置编码。

Positional Encoding 是一种考虑输入序列中单词顺序的方法。encoder 为每个输入 embedding 添加了一个向量，这些向量符合一种特定模式，可以确定每个单词的位置，或者序列中不同单词之间的距离。

例如，input embedding 的维度为4，那么实际的positional encodings如下所示：

在下图中，是20个单词的 positional encoding，每行代表一个单词的位置编码，即第一行是加在输入序列中第一个词嵌入的，每行包含 512 个值，每个值介于 -1 和 1 之间，用颜色表示出来。

可以看到在中心位置分成了两半，因为左半部分的值由一个正弦函数生成，右半部分由余弦函数生成，然后将它们连接起来形成了每个位置的编码向量。

当然这并不是位置编码的唯一方法，只是这个方法能够扩展到看不见的序列长度处，例如当我们要翻译一个句子，这个句子的长度比我们训练集中的任何一个句子都长时。

最后，整个Transformer结构就明朗了。

由于获取数据的代价往往比较大，通过无监督方法学习wordEmbedding，并考虑上下文信息越来越受到关注。

ELMO

ELMo是一种是基于特征的语言模型，用预训练好的语言模型，生成更好的特征。

word2vec中我们取出了最后一步的输出作为词向量，ELMo方法认为应该把所有隐藏层的输出取出来，然后整体作为词向量在接下来的文本处理任务中继续训练，相当于给不同的输出层不同的权重。

从图的结构上来看，我们可以很清晰的看到ELMO模型的主要结构就是L层的双向LSTM，对于L层的双向lstm语言模型，一共会有有2L+1个representations。在多层模型中，浅层往往蕴含的是句法，语法信息，而高层蕴含的是语义信息，因此你可以选择ELMO中各层的输出作为最后的输出，也可以将各层的输出进行综合作为最后的输出。

$ELMo_{k}^{task} = E(\Re _{k};\Theta ^{task}) = \gamma ^{task}\sum_{j=0}^{L}s_{j}^{task}h_{k,j}^{LM}.$

关于ELMO可以参考这里，或者这里。

github link：https://github.com/allenai/bilm-tf

paper : Deep contextualized word representations

ELMo是通过大量的无监督的语料学习得到的，真实的任务中与无监督的语料还是会有差异。另外lstm是串行机制，训练时间长。于是OpenAI GPT出现。

OpenAI GPT

OpenAI GPT根据Transformer训练出来语言模型，但是该语言模型不是固定的，他根据任务的不同，进行Fine-Tuning.由于Transformer 替代了LSTM在效率上也有所提升。

GPT的核心思想是先通过无标签的文本去训练生成语言模型，再根据具体的NLP任务（如文本蕴涵、QA、文本分类等），来通过有标签的数据对模型进行fine-tuning。

具体来说，在这篇论文中提出了半监督的方法，即结合了无监督的预训练和有监督的fine-tuning。论文采用两阶段训练。首先，在未标记数据集上训练语言模型来学习神经网络模型的初始参数。随后，使用相应NLP任务中的有标签的数据地将这些参数微调，来适应当前任务。

如上图所描述，OpenAI GPT相当于没有encoder，只有12层decoder的Transformer。

我们训练语言模型的时候，是用一个句子来进行训练的，但很多任务中，输入并不是一个句子（比如相似度计算，问答等）。对于这样的问题，上图展示了OpenAI GPT使用的Trick，其实就是将所有句子拼起来，为了区分句子的前后时序关系，插入Start,Delim,Extract分别表示开始，分隔，结束。然后将句子embedding 输入OpenAI GPT 定义的Transformer 后面再接入一个Linear Layer，然后softmax（或根据任务的不同使用其他方式）输出，并用输出的监督数据来Fine-tuning Transformer 包括 linear 层的参数，

OpenAI GPT 依旧有单向信息流的问题。让我们再次回到这个句子：

”The animal didn't cross the street because it was too tired”

我们观察到，OpenAI GPT 不论是pretraining 还是Fine-tuning ，都是句子从左往右或同时从右往左的进行。尽管有带mask的Self-attention，依旧无法解决单向信息流的问题。

另外，由于pretraining 输入的是一个句子，Fine-tuning的时候，根据任务的不同，会有两个或多个句子，会存在不匹配问题。bert使用Masked LM解决单向信息流的问题，使用NSP Muti-task Learning 使得pretraining 的时候也是两个句子，解决了不匹配的问题。

Bert

部分内容转自：https://www.jianshu.com/p/d110d0c13063，该部分图片 by Rani Horev

BERT 的目标是生成语言模型，利用了 Transformer 的 encoder 部分。

Transformer 的 encoder 是一次性读取整个文本序列，而不是从左到右或从右到左地按顺序读取，
这个特征使得模型能够基于单词的两侧学习，相当于是一个双向的功能，解决了单向信息流的问题。实验的结果表明，双向训练的语言模型对语境的理解会比单向的语言模型更深刻.

下图是 Transformer 的 encoder 部分，输入是一个 token 序列，先对其进行 embedding 称为向量，然后输入给神经网络，输出是大小为 H 的向量序列，每个向量对应着具有相同索引的 token。

当我们在训练语言模型时，有一个挑战就是要定义一个预测目标，很多模型在一个序列中预测下一个单词，
“The child came home from ___”
双向的方法在这样的任务中是有限制的，为了克服这个问题，BERT 使用两个策略:

1. Masked LM (MLM)

在将单词序列输入给 BERT 之前，每个序列中有 15％的单词被 [MASK] token 替换。然后模型尝试基于序列中其他未被 mask 的单词的上下文来预测被掩盖的原单词。（遮掉部分词，类似与完形填空，根据上下文猜测被遮掉的词）这样就考虑了双向的信息流。

这样就需要：

在 encoder 的输出上添加一个分类层
用嵌入矩阵乘以输出向量，将其转换为词汇的维度
用 softmax 计算词汇表中每个单词的概率

BERT 的损失函数只考虑了 mask 的预测值，忽略了没有掩蔽的字的预测。这样的话，模型要比单向模型收敛得慢，不过结果的情境意识增加了。

2. Next Sentence Prediction (NSP)

在 BERT 的训练过程中，模型接收成对的句子作为输入，并且预测其中第二个句子是否在原始文档中也是后续句子。
在训练期间，50％的输入对在原始文档中是前后关系，另外 50％中是从语料库中随机组成的，并且是与第一句断开的。两个句子的关系在问答等任务中都很有作用。

为了帮助模型区分开训练中的两个句子，输入在进入模型之前要按以下方式进行处理：

在第一个句子的开头插入 [CLS] 标记，在每个句子的末尾插入 [SEP] 标记。
将表示句子 A 或句子 B 的一个句子 embedding 添加到每个 token 上。
给每个 token 添加一个位置 embedding，来表示它在序列中的位置。
segment embedding 显示的编码出当前词是属于[SEP]之前的句子，还是之后的句子。

为了预测第二个句子是否是第一个句子的后续句子，用下面几个步骤来预测：

整个输入序列输入给 Transformer 模型
用一个简单的分类层将 [CLS] 标记的输出变换为 2×1 形状的向量
用 softmax 计算 IsNextSequence 的概率

在训练 BERT 模型时，Masked LM 和 Next Sentence Prediction 是一起训练的，目标就是要最小化两种策略的组合损失函数。

BERT 可以用于各种NLP任务，只需在核心模型中添加一个层，例如：

在分类任务中，例如情感分析等，只需要在 Transformer 的输出之上加一个分类层
在问答任务（例如SQUAD v1.1）中，问答系统需要接收有关文本序列的 question，并且需要在序列中标记 answer。可以使用 BERT 学习两个标记 answer 开始和结尾的向量来训练Q＆A模型。
在命名实体识别（NER）中，系统需要接收文本序列，标记文本中的各种类型的实体（人员，组织，日期等）。可以用 BERT 将每个 token 的输出向量送到预测 NER 标签的分类层。

在 fine-tuning 中，大多数超参数可以保持与 BERT 相同，在论文中还给出了需要调整的超参数的具体指导。

文章中给出了BERT相对于另外两种方法的异同。

BERT 的代码也已经开源：
https://github.com/google-research/bert

你可能感兴趣的:(NLP,DEEPLEARNING)

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
第3篇：LangChain的架构总览与设计理念 Gemini技术窝 langchain 架构大数据人工智能 AIGC nlp
LangChain库是一个专为自然语言处理（NLP）设计的强大工具包，致力于简化复杂语言模型链的构建和执行。在本文中，我们将深入解析LangChain库的架构，详细列出其核心组件、设计理念及其在不同场景中的应用，并讨论其优缺点。文章目录1.LangChain库简介2.核心组件2.1数据输入模块作用2.2数据预处理模块作用2.3数据增强模块作用2.4数据加载与批处理模块作用2.5模型训练模块作用2.
读李中莹先生论“阿Q精神" 猫咪06
这阵子重读《重塑心灵》，对“阿Q精神"一段很有感慨，在我们从小的信念里，阿Q的精神胜利法是被贬低的，是对无能力改变自己的境遇时，似手只能采用自我安慰的人的讽刺。李中莹先生在他的书中结合对话者的认可，定义阿Q精神“只求精神胜利，罔顾真实情况"，他就针对这两句话，解析阿Q精神，并进行了肯定‘，。首先“精神胜利"指的是自己内心有成功的感觉，这很符合NLP!如果所有人都认为你成功，而你自己没有成功的喜悦，
书单用户5521
提高思维（13本）：影响力逻辑思维（理查德·尼斯贝特）离经叛道:不按常理出牌的人如何改变世界（只看最后一章总结即可）改变:问题形成和解决的原则语言的魔力:谈笑间转变信念之NLP技巧（意识到语言顺序的重要性）改变心理学的40项研究对伪心理学说不你的误区:如何摆脱负面思维掌控你的生活战胜拖拉你的灯亮着吗?别做正常的傻瓜学会提问:批判性思维指南不确定世界的理性选择小说（5本）：霍乱时期的爱情那些回不去的
linux查看jupyter运行,在Linux服务器上运行Jupyter notebook server教程天启大烁哥
在Linux服务器上运行Jupyternotebookserver教程很多deeplearning教程都推荐在jupyternotebook运行python代码，方便及时交互。但只在本地运行没有GPU环境，虽然googlecolab是个好办法，但发现保存模型后在云端找不到模型文件，且需要合理上网才能访问。于是想给实验室的服务器配置jupyternotebook，供本机远程访问。踩了不少坑，码一下教
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include