年少无为呀！

自然语言处理——word2vec

文章目录

Embedding

Word Embedding

词向量
词向量---One-Hot

One-Hot骤如下：
One-hot表示文本信息的缺点：

词向量---词袋法

词袋模型同样有一下缺点：

词向量---TF-IDF
词向量---主题模型
词向量_Word2Vec

Skip-gram 和 CBOW 的简单情形
CBOW
Skip-gram
优化方法
Word2Vec存在的问题
词嵌入为何不采用one-hot向量

词向量-Char2Vec
词向量-Doc2Vec
引用

Embedding

Embedding能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习。在传统机器学习模型构建过程中，我们经常使用one hot encoding对离散特征，特别是id类特征进行编码，但由于one hot encoding的维度等于物体的总数
比如阿里的商品one hot encoding的维度就至少是千万量级的。
这样的编码方式对于商品来说是极端稀疏的，甚至用multi hot encoding对用户浏览历史的编码也会是一个非常稀疏的向量。而深度学习的特点以及工程方面的原因使其不利于稀疏特征向量的处理。因此如果能把物体编码为一个低维稠密向量再喂给模型，自然是一个高效的基本操作。

Word Embedding

顾名思义，词向量是⽤来表⽰词的向量，也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊（word embedding）。近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。
在NLP(自然语言处理)领域，文本表示是第一步，也是很重要的一步，通俗来说就是把人类的语言符号转化为机器能够进行计算的数字，因为普通的文本语言机器是看不懂的，必须通过转化来表征对应文本。早期是基于规则的方法进行转化，而现代的方法是基于统计机器学习的方法。
数据决定了机器学习的上限,而算法只是尽可能逼近这个上限，在本文中数据指的就是文本表示，所以，弄懂文本表示的发展历程，对于NLP学习者来说是必不可少的。
词向量转换也就是将文本数据转换为数值型数据的一种方式，在人工智能中，这种方式统称为Word Embedding；Word Embedding 实际上就是一种映射，将文本空间中的某个word，通过一定的方法，映射或者嵌入(Embedding)到另外一个数值向量空间。之所以称为embedding，是因为这种映射往往伴随着降维的思想。

词向量

两个词向量之间的距离（例如，任意两个向量之间的L2范式距离或更常用的余弦距离）一定程度上表征了的词之间的语义关系；
例如，“椰子”和“北极熊”是语义上完全不同的词，所以它们的词向量在一个合理的嵌入空间的距离将会非常遥远。但“厨房” 和“晚餐”是相关的话，所以它们的词向量之间的距离会相对小。
但是哑编码、词袋法以及TF-IDF这些方式都不能达到这个效果，故提出了基于矩阵分解的主题模型算法以及基于神经网络的 Word2Vec的词向量转换方式。

词向量—One-Hot

One-hot简称读热向量编码，也是特征工程中最常用的方法。

One-Hot骤如下：

构造文本分词后的字典，每个分词是一个比特值，比特值为0或者1。
每个分词的文本表示为该分词的比特位为1，其余位为0的矩阵表示。
使用一个非常稀疏的向量来表示单词的特征向量信息，假设现在有n个单词，那么转换的特征向量就是n维，仅在对应位置为1，其它位置全部为0。如下图：

One-hot表示文本信息的缺点：

随着语料库的增加，数据特征的维度会越来越大，产生一个维度很高，又很稀疏的矩阵。
这种表示方法的分词顺序和在句子中的顺序是无关的，不能保留词与词之间的关系信息。

词向量—词袋法

词袋法(Bag of words, BOW)是最早应用于NLP和IR领域的一种文本处理模型，该模型忽略文本的语法和语序，用一组无序的单词 (words)来表达一段文字或者一个文档，词袋法中使用单词在文档中出现的频数/频率来表示文档，使用所有文档中出现的单词作为特征属性。
词袋法像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。

词袋模型同样有一下缺点：

词向量化后，词与词之间是有大小关系的，不一定词出现的越多，权重越大。
词与词之间是没有顺序关系的。

词向量—TF-IDF

在词袋法的基础上加入单词重要性的影响系数：
- 单词的重要性随着它在文本中出现的次数成正比增加，也就是单词的出现次数越多，该单词对于文本的重要性就越高。
- 同时单词的重要性会随着在语料库/训练数据中出现的频率成反比下降，也就是单词在语料库中出现的频率越高，表示该单词越常见，也就是该单词对于文本的重要性越低。
TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。
- 公式如下： $TFw=\frac{在某一类中词条w出现的次数}{该类中所有词条的数目}$
  $IDF=\log\frac{语料库的文档总数}{包含词条w的文档总数+1}$
  $TF-IDF=TF_w*IDF$
  分母之所以加1，是为了避免分母为0。

计算this的TF-IDF如下： $tf(''this'',d_1)=\frac{1}{5}$ $tf(''this'',d_2)=\frac{2}{8}$ $idf(''this'',D)=\log\left(\frac{2+1}{2+1}\right)=0$ $TF-IDF(''this'',d_1)=\frac{1}{5}*0=0$ $TF-IDF(''this'',d_2)=\frac{2}{8}*0=0$

所有单词计算结果如下：

词向量—主题模型

直接使用机器学习的主题模型相关算法将词袋法转换的文本单词特征属性句子转换为文本主题特征属性矩阵以及单词主题特征属性矩阵即可得到单词对应的特征向量以及文本对应的特征向量。

词向量_Word2Vec

Word2Vec可以认为是应用最广泛的词向量转换技术。

在聊 Word2vec 之前，先聊聊 NLP (自然语言处理)。NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理 NLP 的问题，首先就要拿词语开刀。
- 举个简单例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建 f(x)->y 的映射，但这里的数学模型 f（比如神经网络、SVM）只接受数值型输入，而 NLP 里的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种
大部分的有监督机器学习模型，都可以归结为： f(x)->y ，在 NLP 中，把 x 看做一个句子里的一个词语，y 是这个词语的上下文词语，那么这里的 f，便是 NLP 中经常出现的『语言模型』（language model），这个模型的目的，就是判断 (x,y) 这个样本，是否符合自然语言的法则，更通俗点说就是：词语x和词语y放在一起，是不是人话。
Word2vec 正是来源于这个思想，但它的最终目的，不是要把 f 训练得多么完美，而是只关心模型训练完后的副产物——模型参数（这里特指神经网络的权重），并将这些参数，作为输入 x 的某种向量化的表示，这个向量便叫做——词向量。
我们来看个栗子，如何用 Word2vec 寻找相似词：
- 对于一句话：『她们夸吴彦祖帅到没朋友』，如果输入 x 是『吴彦祖』，那么 y 可以是『她们』、『夸』、『帅』、『没朋友』
- 这些词现有另一句话：『她们夸我帅到没朋友』，如果输入 x 是『我』，那么不难发现，这里的上下文 y 跟上面一句话一样从而 f(吴彦祖) = f(我) = y，
- 所以大数据告诉我们：我 = 吴彦祖（完美的结论）
Word2Vec实际是一种浅层的神经网络模型，它有两种网络结构，分别是CBOW（Continues Bag of Words）连续词袋和Skip-gram
- 如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做 『Skip-gram 模型』
- 而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是 『CBOW 模型』
神经网络将词表中的词语作为输入(一般输入哑编码的单词)，输出一个低维度的向量表示这个词语，然后用反向传播的方法不断优化参数。输出的低维向量是神经网络第一层的输出，这一层通常也称作Embedding Layer。
生成词向量的神经网络模型分为两种，一种是类似Word2Vec的方式，这类模型的目的就是生成词向量，另一种是将词向量作为副产品产生，两者的区别在于计算量不同。若词表非常庞大，用深层结构的模型训练词向量需要许多计算资源。
Word2Vec和GloVe(Global Vectors for Word Representation)的目的是训练可以表示语义关系的词向量，它们能被用于后续的任务中；如果后续任务不需要用到语义关系，则按照此方式生成的词向量并没有什么用。另一种模型则根据特定任务需要训练词向量。当然，若特定的任务就是对语言建模，那么两种模型生成的词向量非常相似了。

Skip-gram 和 CBOW 的简单情形

y 是 x 的上下文，所以 y 只取上下文里一个词语的时候，语言模型就变成：用当前词 x 预测它的下一个词 y
一般的数学模型只接受数值型输入，这里的 x 该怎么表示呢？显然不能用 Word2vec，因为这是我们训练完模型的产物，现在我们想要的是 x 的一个原始输入形式，那就是one-hot encoder。
所谓 one-hot encoder，其思想跟特征工程里处理类别变量的 one-hot 一样。本质上是用一个只含一个 1、其他都是 0 的向量来唯一表示词语。

假设全世界所有的词语总共有 V 个，这 V 个词语有自己的先后顺序，假设『吴彦祖』这个词是第1个词，『我』这个单词是第2个词，那么『吴彦祖』就可以表示为一个 V 维全零向量、把第1个位置的0变成1，而『我』同样表示为 V 维全零向量、把第2个位置的0变成1。这样，每个词语都可以找到属于自己的唯一表示。
OK，那我们接下来就可以看看 Skip-gram 的网络结构了，x 就是上面提到的 one-hot encoder 形式的输入，y 是在这 V 个词上输出的概率，我们希望跟真实的 y 的 one-hot encoder 一样。

首先说明一点：隐层的激活函数其实是线性的，相当于没做任何处理（这也是 Word2vec 简化之前语言模型的独到之处），我们要训练这个神经网络，用反向传播算法，本质上是链式求导。
当模型训练完后，最后得到的其实是神经网络的权重，比如现在输入一个 x 的 one-hot encoder: [1,0,0,…,0]，对应刚说的那个词语『吴彦祖』，则在输入层到隐含层的权重里，只有对应 1 这个位置的权重被激活，这些权重的个数，跟隐含层节点数是一致的，从而这些权重组成一个向量 vx 来表示x，而因为每个词语的 one-hot encoder 里面 1 的位置是不同的，所以，这个向量 vx 就可以用来唯一表示 x。
此外，我们刚说了，输出 y 也是用 V 个节点表示的，对应V个词语，所以其实，我们把输出节点置成 [1,0,0,…,0]，它也能表示『吴彦祖』这个单词，但是激活的是隐含层到输出层的权重，这些权重的个数，跟隐含层一样，也可以组成一个向量 vy，跟上面提到的 vx 维度一样，并且可以看做是词语『吴彦祖』的另一种词向量。而这两种词向量 vx 和 vy，正是 Mikolov 在论文里所提到的，『输入向量』和『输出向量』，一般我们用『输入向量』。
需要提到一点的是，这个词向量的维度（与隐含层节点数一致）一般情况下要远远小于词语总数 V 的大小，所以 Word2vec 本质上是一种降维操作——把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示。

CBOW

CBOW根据上下文预测当前单词

CBOW获得中间词两边的的上下文，然后用周围的词去预测中间的词，把中间词当做y，把窗口中的其它词当做x输入，x输入是经过one-hot编码过的，然后通过一个隐层进行求和操作，最后通过激活函数softmax，可以计算出每个单词的生成概率，接下来的任务就是训练神经网络的权重，使得语料库中所有单词的整体生成概率最大化，而求得的权重矩阵就是文本表示词向量的结果。
例如，给定｛The，cat，()，over，the， puddle｝预测中心词是jumped的概率，模型的结构如下:

Skip-gram

Skip-gram根据单词预测上下文

skip-gram是通过当前词来预测窗口中上下文词出现的概率模型，把当前词当做x，把窗口中其它词当做y，依然是通过一个隐层接一个Softmax激活函数来预测其它词的概率
给定jumped，预测上下文单词｛The，cat，()，over，the， puddle｝的概率，模型的结构如下:
上述所说的Word2Vec是最原始的结构，在计算过程中需要计算所有单词(2m)和中心词之间的概率，比较耗时，所以在Word2Vec的论文(Efficient Estimation of Word Representations in Vector Space)中，作者Mikolov提出Hierarchical softmax(霍夫曼树)和Negative sampling(负样本采样)两种方法对Word2Vec的模型训练进行优化。这也是Word2Vec能够大量真正应用于NLP领域的主要原因(不需要依赖神经网络训练模型)。

优化方法

如果单单只是接一个softmax激活函数，计算量还是很大的，有多少词就会有多少维的权重矩阵，所以这里就提出层次Softmax(Hierarchical Softmax)
使用Huffman Tree来编码输出层的词典，相当于平铺到各个叶子节点上，瞬间把维度降低到了树的深度
可以看如下图所示。这课Tree把出现频率高的词放到靠近根节点的叶子节点处，每一次只要做二分类计算，计算路径上所有非叶子节点词向量的贡献即可。

哈夫曼树(Huffman Tree)：给定N个权值作为N个叶子结点，构造一棵二叉树，若该树的带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树，权值较大的结点离根较近。

层次 Softmax 应用了哈夫曼树的思想，元素对应词，元素的权值对应词出现的频率，那么出现越频繁的词越接近哈夫曼树的根节点，其搜索的频率也越频繁。所以根据词频构建哈夫曼树。
那么哈夫曼树中的 0,1 路径又是如何得到的呢？答案就是 Sigmoid 函数。
$σ(x;θ)=\frac{1}{1+e^{-z}}，z=x^Tθ+b$
Sigmoid 函数的取值范围为 (0, 1)，刚好可以用来进行 0,1 输出，哈夫曼树是二叉树，那么每次进行路径选择可视为一个二分类，那么就变成了多次二分类，称为层次 Softmax.
对于当前词的上下文词，经过计算到投影层后，进入层次 Softmax。将上下文词向量的结果求和取平均，将结果推给 Sigmoid 函数。
在最终输出层，便用到了词在哈夫曼树根节点走向目标叶子结点的搜索路径。对于每一次决策左右，都是由 Sigmoid 计算得到的，而 Sigmoid 计算的结果都可以视为概率，那么我们可以将路径的概率相乘，计算最大似然，得到损失函数：

$L(x_i;θ)=∏^{l_i}_{j=2}[σ(x_i;θ)]^{1−y_j}[1−σ(x_i;θ)]^{y_j}$

其中 $l_i$ 为该词的搜索路径。
之后就可以像求解 Logistic 回归一样进行反向传播了。

负例采样(Negative Sampling)：这种优化方式做的事情是，在正确单词以外的负样本中进行采样，最终目的是为了减少负样本的数量，达到减少计算量效果。将词典中的每一个词对应一条线段，所有词组成了[0，1］间的剖分，如下图所示，然后每次随机生成一个[1, M-1]间的整数，看落在哪个词对应的剖分上就选择哪个词，最后会得到一个负样本集合。

在层次 Softmax 中，如果要查询一个比较生僻的词，那么路径会非常长，搜索的深度也非常深。
搜索深度非常深的原因是，语料库中的词多，如果有 10000 个不重复词，那么哈夫曼树的深度则为 10000，而我们想要搜索的只有一个或滑动窗口大小个词，所以我们要对不相关的词进行精简。

精简的方法为负采样。

负采样的思想用一句话来描述：将真实词看作正类，将非真实词看作负类，在负类中进行采样，获取一部分样本。那么由此，原本的 10000 分类或者 10000 规模的层次Softmax 变成了二分类。
负采样的实现方法用到了赌博轮盘算法的思想，只不过将轮盘的原型展开，变为一条线。
将非真实词的负样本空间看作一条长度为 1 的线段，各个词在线段中占有一段长度，其长度对应词的词频。而后随机产生一个 (0,1) 的数，这个数在哪个词线段的区间内，这个词就被加入到采样的样本中。
假设随机产生一个数：0.66，066 ∈ (0.55, 0.95)，所以词 “中国” 被选出，以此类推，进行多次实验，最终得到一定数量的负样本，而后利用 Sigmoid 函数进行二分类。

Word2Vec存在的问题

对每个local context window单独训练，没有利用包含在global co-currence矩阵中的统计信息。
对多义词无法很好的表示和处理，因为使用了唯一的词向量
word2vec模型的问题在于词语的多义性。比如duck这个单词常见的含义有水禽或者下蹲，但对于 word2vec 模型来说，它倾向于将所有概念做归一化平滑处理，得到一个最终的表现形式。

词嵌入为何不采用one-hot向量

虽然one-hot词向量构造起来很容易，但通常并不是⼀个好选择。⼀个主要的原因是，one-hot词向量⽆法准确表达不同词之间的相似度，如我们常常使⽤的余弦相似度。由于任何两个不同词的one-hot向量的余弦相似度都为0，多个不同词之间的相似度难以通过one-hot向量准确地体现出来。
word2vec⼯具的提出正是为了解决上⾯这个问题。它将每个词表⽰成⼀个定⻓的向量，并使得这些向量能较好地表达不同词之间的相似和类⽐关系。

词向量-Char2Vec

词向量-Doc2Vec

引用

https://blog.csdn.net/weixin_37352167/article/details/90260358
https://github.com/NLP-LOVE/ML-NLP/tree/master/NLP/16.1%20Word%20Embedding

【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024 hitrjj NLP LLM Papers NLP LLM 大语言模型文本处理生成模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,17Jan2024(showingfirst100of163entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeductiveClosureTrainingofLanguageModelsforCoherence,Accuracy,andUpdatab
【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型对话系统 NLP
AI视野·今日CS.NLP自然语言处理论文速览Thu,18Jan2024Totally35papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDecipheringTextualAuthenticity:AGeneralizedStrategythroughtheLensofLargeLanguageSemanticsforDetectingH
2018-03-05 baitu
使用sar和kSar来发现Linux性能瓶颈剖析内存中的程序之秘JavaEE未来路在何方？用户帐户，授权和密码管理的12个最佳实践NLP自然语言处理框架ClearTKApacheUIMAClearTKLoggingWiththeElasticStack
【NLP 自然语言处理(一)---词向量】 y_dd 深度学习自然语言处理人工智能
文章目录什么是NLP自然语言处理发展历程自然语言处理模型模型能识别单词的方法词向量分词一个向量vector表示一个词词向量的表示-one-hot多维词嵌入wordembeding词向量的训练方法CBOWSkip-gram词嵌入的理论依据一个vector（向量）表示短语或者文章vectorspaceModelbag-of-wordvectorspaceModel+bag-of-word实现信息搜索改
NLP自然语言处理实战(三):词频背后的语义--5.距离和相似度&反馈及改进 Nobitaxi NLP自然语言处理实战学习自然语言处理机器学习人工智能
目录1.距离和相似度2.反馈及改进线性判别分析1.距离和相似度我们可以使用相似度评分（或距离），根据两篇文档的表达向量间的相似度（或距离）来判断文档间有多相似。LSA能够保持较大的距离，但它并不能总保持较小的距离（文档之间关系的精细结构）。LSA底层的SVD算法的重点是使新主题向量空间中所有文档之间的方差最大化。特征向量（词向量、主题向量、文档上下文向量等）之间的距离驱动着NLP流水线或任何机器学
NLP自然语言处理-第一章NLP基础 Viterbi
第一章NLP基础在本章你将学到NLP（自然语言处理）相关的基础知识。本章要点包括：NLP基础概念NLP的发展与应用NLP常用术语以及扩展介绍1.1什么是NLP1.1.1NLP的概念NLP（NaturalLanguageProcessing，自然语言处理）是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、理解以及运用人类语言（如中文、英文等），达到人与计算机之间进行有效通讯
NLP自然语言处理 AI论道自然语言处理人工智能
随着人工智能的飞速发展，自然语言处理（NaturalLanguageProcessing，简称NLP）已经成为了AI领域的一颗璀璨明珠。NLP旨在赋予机器理解和处理人类语言的能力，这不仅仅是一项技术革新，更是一种推动人与机器交流方式根本性变革的力量。本文将对NLP进行简析，带领读者一探究竟。1、什么是自然语言处理？自然语言处理是计算机科学、人工智能和语言学交叉的一个分支学科，它涉及到让计算机能够理
NLP自然语言处理的基本语言任务介绍人生万事须自为，跬步江山即寥廓。机器学习人工智能自然语言处理人工智能机器学习
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学、人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。NLP的基本任务包括以下几个方面：1.分词（Tokenization）：将文本分割成单词、短语或其他有意义的元素（称为tokens）。分词是许多NLP任务的第一步。2.词性标注（Part-of-SpeechTagging）：为文本中的
【AI视野·今日NLP 自然语言处理论文速览第七十七期】Mon, 15 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 LLM 大语言模型大模型自动翻译文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,15Jan2024Totally57papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMachineTranslationModelsareZero-ShotDetectorsofTranslationDirectionAuthorsMichelleWastl,JannisVamvas,R
【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024 hitrjj LLM NLP Papers 自然语言处理大语言模型 LLM NLP
AI视野·今日CS.NLP自然语言处理论文速览Fri,12Jan2024Totally60papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAxisTour:WordTourDeterminestheOrderofAxesinICA-transformedEmbeddingsAuthorsHiroakiYamagiwa,YusukeTakas
深入浅出自然语义处理原理并构建自然语义处理(NLP)模型GPT2 「已注销」笔记深度学习人工智能 pytorch 自然语言处理神经网络
NLP自然语言处理，GPT2模型1、词向量在图像的处理中，我们无需对图像进行特殊的处理，因为图像本身就是由矩阵来表示的。而处理自然语言的时候，语言是由每一个字、词组成的。而字、词是通过编码存储在计算机当中的。所以我们可以通过将字、词编码成为向量的形式，如此就可以输入进深度学习网络模型中。但是我们应该如何去编码呢？像做图像分类那样，使用one—hot的形式编码？但是这样会存在一个问题，在自然语言中，
NLP自然语言处理介绍 love6a6 nlp
自然语言处理（NaturalLanguageProcessing，NLP）是一种通过计算机技术与人类语言交互的研究领域。它致力于使计算机能够理解、解析、处理和生成人类语言，以实现人机之间的自然语言交流。NLP涉及多个技术和方法，包括语音识别、文本分析、语义理解、机器翻译、情感分析等。通过这些技术，NLP可以处理和分析大量的文本数据，识别文本中的关键信息和结构，并从中提取出有用的知识和洞察。NLP在
分享一个“产业级，开箱即用”的NLP自然语言处理工具李楷杰自然语言处理人工智能
NLP的全称是NatuarlLanguageProcessing，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NLP）的一个最伟大的方面是跨越多个领域的计算研究，从人工智能到计算语言学的多个计算研究领域都在研究计算机与人类语言之间的相互作用。它主要关注计算机如何准确并快速地处理大量的自然语言语料库。什么是自然语言语料库？它是用现实世界语言表达的语言学习，是从文本和语言与另一种
【AI视野·今日NLP 自然语言处理论文速览第七十五期】Thu, 11 Jan 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Thu,11Jan2024Totally36papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLeveragingPrintDebuggingtoImproveCodeGenerationinLargeLanguageModelsAuthorsXueyuHu,KunKuang,JiankaiSun
NLP自然语言处理原理应用讲解打工人何苦为难打工人 nlp
自然语言处理（NLP）是人工智能领域中研究如何让计算机理解和处理人类自然语言的一门学科。它的应用广泛，例如在搜索引擎、聊天机器人、机器翻译等领域中都发挥了重要的作用。NLP的基本原理是通过对大量的语料库进行训练，让计算机学习到语言的语法、语义、上下文等信息，从而能够理解人类的语言。在处理自然语言时，NLP需要先将文本转换成一系列的符号，然后对这些符号进行分析和处理，最后将这些处理结果转换成机器可以
rnn相关爱学习的羽 workHappy pytorch rnn 人工智能深度学习
构成比之前多了一个圈这个圈包含t时刻之前的数据特征，主要用在NLP自然语言处理中。只用最后一个结果ht，前面的当做中间结果特点会把之前看到的都记下来，但第n句话和第一句话之间联系不太大，没必要LSTM自然语言处理考虑词的前后顺序和相关性构建词向量，不断向后滑动学习cbow和skip-gram方法cbow输入上下文，输出预测最中间的位置的词skip-gram输入中间的词，输出预测的上下文改进方法加入
NLP自然语言处理实战 AI论道自然语言处理人工智能
一、自然语言处理的概念1.1自然语言处理的起源语言是人类社会发展过程的产物，是最能体现人类智慧和文明的证明，也是人类与动物最大的区别。它是一种人与人交流的载体，像计算机网络一样，我们使用语言相互传递知识。在人类历史的几千年，语言不断地繁衍发展。在计算机兴趣的近几十年，科学界正在试图不断努力，把人类的语言演变成分析数据特征的依据。在1970年，有两位美国人RichardBandler和JohnGri
NLP自然语言处理介绍 Dxy1239310216 nlp
自然语言处理（NLP，NaturalLanguageProcessing）是一门涉及计算机与人类语言之间交互的学科。它的目标是使计算机能够理解和生成人类语言，从而更好地处理和解析大量的文本数据。NLP不仅是人工智能领域中一个重要的分支，也是当今社会应用广泛的领域之一。在NLP中，一个基础但关键的任务是分词。由于自然语言中的词语是由连续的字符序列组成，计算机需要将这些连续的字符切分成单独的词语或词素
NLP自然语言处理应用场景相信光的力量-哇哈里自然语言处理人工智能
NLP自然语言处理应用场景：智能客服：NLP可以用于开发智能客服系统，帮助用户解决问题，提供快速响应和个性化服务。舆情分析：NLP可以对社交媒体、新闻、评论等大量文本数据进行分析，帮助企业了解公众对其品牌、产品或服务的看法和态度。机器翻译：NLP可以用于开发机器翻译系统，实现跨语言沟通和文化交流。文本分类：NLP可以对大量文本进行分类，例如将新闻文章分类为政治、娱乐、体育等不同领域。智能搜索：NL
【AI视野·今日NLP 自然语言处理论文速览第七十二期】Mon, 8 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型数据集文本生成对比学习文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Mon,8Jan2024Totally17papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeepSeekLLM:ScalingOpen-SourceLanguageModelswithLongtermismAuthorsDeepSeekAIXiaoBi,DeliChen,GuantingChe
【AI视野·今日NLP 自然语言处理论文速览第七十三期】Tue, 9 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本生成文本摘要代理模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,9Jan2024Totally80papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersFFSplit:SplitFeed-ForwardNetworkForOptimizingAccuracy-EfficiencyTrade-offinLanguageModelInferenceAuthor
【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,10Jan2024Totally38papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersModelEditingCanHurtGeneralAbilitiesofLargeLanguageModelsAuthorsJiaChenGu,HaoXiangXu,JunYuMa,PanLu,Zhen
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等代码讲故事机器人智慧之心自然语言处理人工智能 NLP Transformers 情感分析垃圾邮件语法纠错
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过Transformers模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等。垃圾邮件是广告、欺诈或其他不相关信息的电子邮件，给我们的日常工作和生活带来了困扰。为了有效过滤和阻止垃圾邮件的到达，我们需要使用各种判断方法和技术。首先，基于匹配规则的方法是最常见的垃圾邮件判断方法之一。通过设置一系列的规则和模式，对邮件的主题、发件人、内容等进行
【AI视野·今日NLP 自然语言处理论文速览第七十期】Thu, 4 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型文本摘要价值对齐智能助手训练方法
AI视野·今日CS.NLP自然语言处理论文速览Thu,4Jan2024Totally29papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersMultilingualInstructionTuningWithJustaPinchofMultilingualityAuthorsUriShaham,JonathanHerzig,RoeeAharoni
【AI视野·今日NLP 自然语言处理论文速览第六十九期】Wed, 3 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 NLP 大模型 LLM 大语言模型文本摘要文本生成
AI视野·今日CS.NLP自然语言处理论文速览Wed,3Jan2024Totally24papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAnAutoregressiveText-to-GraphFrameworkforJointEntityandRelationExtractionAuthorsZaratianaUrchade,NadiTo
【AI视野·今日NLP 自然语言处理论文速览第七十一期】Fri, 5 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM NLP 大语言模型智能诊断智能对话文本摘要
AI视野·今日CS.NLP自然语言处理论文速览Fri,5Jan2024Totally28papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLLaMAPro:ProgressiveLLaMAwithBlockExpansionAuthorsChengyueWu,YukangGan,YixiaoGe,ZeyuLu,JiahaoWang,YeFen
【AI视野·今日NLP 自然语言处理论文速览第六十六期】Tue, 31 Oct 2023 hitrjj NLP LLM Papers 人工智能自然语言处理 NLP NLPer LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Tue,31Oct2023(showingfirst100of141entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersTheEval4NLP2023SharedTaskonPromptingLargeLanguageModelsasExplainableMetr
【AI视野·今日NLP 自然语言处理论文速览第六十七期】Mon, 1 Jan 2024 hitrjj NLP LLM Papers 自然语言处理 LLM 大语言模型文本摘要智能问答生成模型
AI视野·今日CS.NLP自然语言处理论文速览Mon,1Jan2024Totally42papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersPrincipledGradient-basedMarkovChainMonteCarloforTextGenerationAuthorsLiDu,AfraAmini,LucasTorrobaHennige
【AI视野·今日NLP 自然语言处理论文速览第六十八期】Tue, 2 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 对话系统文本生成文本摘要智能问答
AI视野·今日CS.NLP自然语言处理论文速览Tue,2Jan2024Totally48papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersAComputationalFrameworkforBehavioralAssessmentofLLMTherapistsAuthorsYuYingChiu,AshishSharma,InnaWanyinL
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep