Jamie_Wu

自然语言处理的bert, GPT, GPT-2, transformer, ELMo, attention机制都是些何方神圣？？？

2018年是NLP领域巨变的一年，这个好像我们都知道，但是究竟是哪里剧变了，哪里突破了？经常听大佬们若无其事地抛出一些高级的概念，你却插不上嘴，隐隐约约知道有这么个东西，刚要开口：噢！你说bert啊，我知道，就是一个预训练模型，然后，然后。。。然后就没有然后了，若是在面试场上，你三秒钟就结束了考官的提问，那尴尬的考官估计只能以你太快的理由拒绝给你发offer。

好的，闲话少说，我们来总结一下这么些高级的概念，究竟从何说起呢？首先要推荐大家读一读，https://zhuanlan.zhihu.com/p/49271699，张俊林大佬的解读。本文也会以该文的思路为主线，加上一些自己的总结和理解。

首先，说到以上这些概念，不得不提词向量。而词向量，顾名思义，就是把词向量化，这样有神马好处我们就不多说了，获得词在向量空间的表示，可以度量词之间的距离，相关度等等……我们一般有两种获取方式，一种是比较传统的，基于共现矩阵，SVD等等，另一种就是语言模型。

第一种，基于共现矩阵就稍微提一下，这个的意思呢，就是统计指定窗口大小各个词的共现频次，这样的思想就是：可以用某个词的周边词，来表示这个词。

比如经典的三句话：

I like deep learning.
I like NLP.
I enjoy flying.

表示成共现矩阵：

那我们不禁要问一句，为什么不用one-hot的方法来做呢，其实你可以想象，用one-hot来做，每个词之间的相似度似乎都是0，而且超级稀疏，那还玩个毛线啊，词之间的关联一点都刻画不出来，这对文本分析是个致命的问题。现在出现这么个共现矩阵，你说这下该可以坐享其成了吧，其实不是，这个的问题也很明显，因为，还是很稀疏呀，什么意思呢，就是说，Corpus里面有多少词，你就要多少维？？那显然会有维度灾难，并且也很稀疏。

好的，你说高维稀疏那么就好办呀，咱们的那些降维的技术拿出来呀，一个很经典的方法就是SVD,那么SVD做了什么工作呢，这里的SVD就不展开讲了，就好像数学老师下课的时候：最后讲两句，结果到上课铃响语文老师都进来了还没讲完。

我们只要知道，

现在X就是共现矩阵，分解之后，得到正交矩阵U，U归一化后作为现在每个词的词向量。

现在得到了词的稠密矩阵，语义相近的词在空间的距离很近，甚至一定程度达到了反映词之间的线性关系的效果。

以上是基于词的共现矩阵来获取词向量，这种方法在推荐系统里面也经常用，可以获取item和item之间的相似关系。

接下来重磅推出基于语言模型的词向量。

大家公认基于语言模型的词嵌入技术是在2003年Bengio提出的，就是经典的NNLM模型，但是又在2013年因为word2vec技术重新被认知。那么这些个模型，究竟有什么神奇的地方呢？

这个推荐大家看看《word2wec背后的数学原理》这个文章，写得很细致，在这里我们也不去推导其细节。

等等，我们是不是要先说说什么是语言模型？

一句话说：语言模型就是用来衡量一句话多大程度是人话的模型。好吧，这句话就很不人话。

详细一点，一句话概率，我们可以用这句话每个词的联合概率表示，进一步，又可以表示成多个条件概率的乘积。这个乘积越大，它这句话越可能是一句话。

我推荐看看宗成庆老师的统计自然语言处理，说得很清楚。

好了，要扯这边了，首先是NNLM, neural network of language model. 这个模型说来也是很有意思。现在咱不是可以根据语料对每个词进行one-hot编码吗，这个模型假设了一个C矩阵，用one-hot 乘以C矩阵，得到的就是该词的嵌入表示，（当然，这里的C矩阵大小维度和one-hot维度有关，也和嵌入后的维度有关。）然后，再用某词的上文词（context）嵌入后的稠密表示，做一个拼接，之后按照神经网络的思路，通过激活函数，然后全连接到原来one-hot的维度上，做一个softmax，就构建了一个神经网络。

说起来很抽象，看下图。

这里要特别说明一点的就是：这个C矩阵，是一个随机初始化的矩阵，然后可以通过不断的训练，得到最终的嵌入矩阵，神奇的就在这里，我们仅仅是想构建一个神经网络语言模型，根据前面几个词，预测后一个可能是什么词。C矩阵是我们要训练的参数，结果我们却发现，我们的这个C矩阵，就是每个词的嵌入向量，真是踏破铁鞋无觅处，得来真特瞄的费劲。

然后也不知道沉睡了多久，也不知还要多久才能睁开双眼。我们的word2vec出现在2013年，word2vec有两种训练方式，一种是CBOW: continuous bag-of-words. 一种是skip-gram.

这两个也很有意思，CBOW是根据周围的几个词预测中间的词，skip-gram是根据中间的一个词预测周围的几个词。他们和NNLM有什么关系吗？

有! 那CBOW来说，它相比NNLM，少了隐藏层，而且上下文通过投影层之后，是直接相加的，而我们上面说了，NNLM是通过拼接的方式。我们的CBOW就是奔着词向量去的。当然，这个不仅仅是这一点改进，最牛的还是w2v后面的大量运算的简化思想，这里也不说了，在《word2vec背后的数学原理》讲得十分的清楚，主要是两种手段：1, 层次化的softmax。 2, 负例采样。至于这里的层次化softmax是怎么样用的哈夫曼树，负例采样的一些采样细节，我们也不在这里说了。

然后说得十分闹热，这个词向量我们已经获得了，那为什么不能把这个看成是一个预训练模型呢，其实是可以的，就和图像领域的预训练似乎差不多了，而且也有两种打开方式：一种是frozen, 另一种当然就是fine-tune. 说到这里，我们还是要指出word2vec的不足，就是，这个模型，不能够很好地做歧义消解，怎么说呢，摊牌了，就是说这是一个静态向量：那我们在谈论苹果的时候，我们究竟在谈论什么？对的，我们在谈论乔布斯的iPhone，还是谈论砸中牛阿顿的那个东西？很显然，无从得知，因为你的embedding是固定的，没法区分，对不对？所以才会有动态词向量这个概念产生咯。顾名思义，动态词向量，就是能够动的词向量，动体现在，随着上下文的不一致，我们产生的词向量也是不一致的，这好理解吧，就好比说，我们看苹果出现的时候，它周围出现的是乔布斯，还是牛阿顿，是一款，还是一斤？

这里就隆重地推出来ELMo, embedding from language models.

ELMo的官网：https://allennlp.org/elmo，这个神器Elmo有什么好处呢，据说可以处理单词用法的复杂特性，如句法和语义（为什么可以？是由于ELMo的输入是字母为单位，而不是单词，所以这对于oov未登录的单词也有很好的效果）。它和word2vec的最大不同就是，它提供了一个动态的词向量，根据上下文的不同，模型产出的词向量是不同的。

说一说Elmo模型的结构，

它是基于深度双向语言模型（biLM）训练的，即，通过双向的LSTM来提取文本特征，根据它们的内部状态学习到的函数，作为词向量。

这里还是说一下双向的意思，通俗的说，就是把文本正向反向都提取一遍，这个叫双向。上面的biLSTM内部结构可以再细化一点，就是下面这个样子，经过一个biLSTM之后，输出的是正向的和逆向的拼接向量。

ELMo的贡献还在于，它发现，在深层的RNN模型中，不同层次的RNN提取到的特征是有差异的。所以ELMO提出，赋予不同的层次一个可训练的参数，这个参数作为权重，以方便在做下游任务时，用这个加权和的词向量能更好适应任务。

Elmo可以通过pip install allennlp来安装，也可以download GitHub上的源码来做[https://github.com/allenai/allennlp]，当然这个项目是构建在pytorch上面的。

这个模型还可以自如的使用：

这个模型看起来十分不错，但是就是速度太慢了。加上我们站在这里来往前看历史，我们发现，LSTM的特征抽取的能力偏弱，而Google提出的transformer抽取器，则是一个更牛逼的存在。

Transformer

这里祭上大名鼎鼎的：Attention is all you need. https://arxiv.org/abs/1706.03762.

要说到这个transformer，不得不提到Encoder-decoder模型，我们知道，Encoder-decoder经常被用来做无监督的特征提取工作。

当我们把编码组件给剖开，我们看看里面是何方神圣，我们发现编码组件里面包含很多个编码器，官方取的6个，当然你也可以取其他数量。而再细看，每个编码器又分为：self-attention 层和feed-forward层。

那可以这么说，要弄懂transformer，就得先搞懂这两层：

自注意力层：

说到自注意力，我们都知道，通俗来说：自注意力是为给整个句子所有的单词一定的权重，得到一定的关注。此处，引入self-attention层，当然是为了让每个单词在进行编码时，都能关注要句子的其他单词。

然后自注意力层的输出送到前馈神经网络，注意，这里每个单词对应的前馈神经网络都是一样的。

后面再深入谈谈注意力机制。

【https://blog.csdn.net/malefactor/article/details/50550211，可以看这个博客，张俊林大佬，怎么又是这个大佬，很生动的用rnn的encoder-decoder模型阐述了自注意力模型AM,简而言之，比如说在翻译任务中，这个自注意力相当于是一个对齐概率，是原输入句子单词和目标单词之间的对齐概率，这个概率怎么来的？比如要输出yi的目标单词，那么这个对齐概率就是在i时刻的隐状态Hi，分别与输入句子单词的中间状态h1->hm的内积（这里的内积只是一个方式，也可以用其他的函数），再做softmax得到的。

反正大佬说这样做是非常有道理的，而且我也信了，就和传统的翻译系统中间有个词对齐的过程，在这里要翻译，也得大致知道对齐的是谁，这个概率分布，就是我们说的注意力。

】

【

这里抠一抠自注意力层的细节，比如说，现在有一个句子，这个句子输入进自注意力层，详细步骤是怎么样的呢？

首先声明一点概念，我们在自注意力层会训练三个权重矩阵，分别是WQ查询矩阵，WK键矩阵,WV值矩阵, 这里有没有想起老大哥NNLM那个午后的C矩阵？

我们训练这三个矩阵，是为了干嘛呢？就是分别乘以初始的词嵌入向量，得到三个向量，分别是q查询向量，k键向量，v值向量。

看图：

好了，大神画的这个图已经足够一目了然了。

得到了这三个向量，然后干嘛呢，仔细听：当我们要编码X1向量时，用q1向量乘以K1向量，用q1乘以k2,分别得到两个得分，而这两个得分softmax归一化后作为权重，乘以各自的值向量。而值向量再求和，得到的就是注意力层该位置的输出！如果参数被训练的足够好，那么这个编码是完全能够体现出自注意力的特性的。

但是呢，这样一个词一个词来，很慢，我们肯定要想办法提高速度，我们发现这个和RNN还不一样，各个词之间输入输出之间没有先后顺序，可以做并行，那么我们就会直接用矩阵的乘法来解决这个事情了：

不用惊讶，这里的过程和上面我们说的是一模一样，除了根号dk，是在归一化之前的一个小处理，并不影响。

得到的Z，就是我们的带注意力的词编码，是自注意力层的输出。

进一步我们要多讨论一下，transformer里面有个概念叫多头，multi-headed attention, 这个说的是啥呢，很容易理解，就是大佬们觉得你一个Q, K, V矩阵好像不够啊，这怎么弄呢，就用多组Q, K, V矩阵，重复以上的操作

会输出多个Z矩阵，然后再进前馈层，但是前馈层是一样的，可以吧多个Z矩阵合并再进行操作，合并的细节：可以把Z矩阵们拼接，再乘以权重矩阵，得到最终Z矩阵。

看下图，更清晰：

】

位置编码！

这个transformer模型，没有LSTM的序列关系，那么是不是就意味着，全程都没有表示词的位置的信息？

为了解决这个问题，transformer特地用了一种位置编码的方式，赋予每个位置的单词一个位置编码，然后把这个位置编码和词嵌入相加。

Transformer的残差模块

的这里有小细节，需要注意，我们看原结构：

其实这个是简化的，啥意思呢，就是说，有细节没有画出来。

每一个编码器，到前馈神经网络输入的时候，其实是原向量和训练后的向量相加的结果：

在解码器中，除了编码器有的这两层，还多出一层编码-解码注意力层：

整个过程捋一遍：编码层在训练之后，得到许多个矩阵（Q,K,V），这些矩阵会送到解码层里面，解码的过程，就是每输入一个词，预测出下一个词，直到到达终止符。另外，就像我们对编码器的输入所做的那样，我们会嵌入并添加位置编码给那些解码器，来表示每个单词的位置。

这里的线性变换和softmax，是一个全连接层，从实数向量到一个很长的logits向量，然后softmax。

https://www.jiqizhixin.com/articles/2019-01-09-18，这里有机器之心更详尽的阐述。

这里基本上讲完了transformer，而我们接下来的任务就是bert了，先记一个小tip：为了表示各个单词的位置信息，我们知道transformer是有个位置编码的东西存在的，bert是给了每个单词一个position embedding，然后和单词本身的embedding相加起来得到最终的向量。

GPT：generative pre-train model

GPT的精髓可以说就是Transformer了，可惜的就是GPT采用的单向语言模型：

也是两阶段的模型，第一阶段：用语言模型做预训练，第二阶段通过fine-tuning的模式解决下游任务。

解决下游任务的时候注意，这里有比较大的不同，本来我们得到了预训练的词向量，可以任意设计自己的网络结构，但是这里，要根据GPT的网络结构，来改造下游任务的结构，使其适应现在的网络结构，这样有什么好处呢？我的理解就是，我们可以直接把预训练的参数拉过来，这就初始化了网络结构，然后，在这个基础上，可以直接fine-tuning，这个和图像的预训练模型是不是就很像了？

但是至于各个下游任务是怎么改造的，这个我还没怎么搞清楚，大佬的文章里写得很轻松，看下图：

“GPT论文给了一个改造施工图如上，其实也很简单：对于分类问题，不用怎么动，加上一个起始和终结符号即可；对于句子关系判断问题，比如Entailment，两个句子中间再加个分隔符即可；对文本相似性判断问题，把两个句子顺序颠倒下做出两个输入即可，这是为了告诉模型句子顺序不重要；对于多项选择问题，则多路输入，每一路把文章和答案选项拼接作为输入即可。从上图可看出，这种改造还是很方便的，不同任务只需要在输入部分施工即可。”

Bert：来到了bert，bert和GPT不一样的就是预训练采用的双向语言模型，其他的：也是两阶段，也是transformer。

其实bert还有很多技术细节，如masked LM等。

未完待续

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

自然语言处理的bert, GPT, GPT-2, transformer, ELMo, attention机制都是些何方神圣？？？

你可能感兴趣的:(自然语言处理)