Milburn

BERT模型图解

转载于腾讯Bugly 发表于腾讯Bugly的专栏原文链接：https://cloud.tencent.com/developer/article/1389555

本文首先介绍BERT模型要做什么，即：模型的输入、输出分别是什么，以及模型的预训练任务是什么；然后，分析模型的内部结构，图解如何将模型的输入一步步地转化为模型输出；最后，我们在多个中/英文、不同规模的数据集上比较了BERT模型与现有方法的文本分类效果。

1. 模型的输入/输出

BERT模型的全称是：BidirectionalEncoder Representations from Transformer。从名字中可以看出，BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。煮个栗子，BERT模型训练文本语义表示的过程就好比我们在高中阶段学习语数英、物化生等各门基础学科，夯实基础知识；而模型在特定NLP任务中的参数微调就相当于我们在大学期间基于已有基础知识、针对所选专业作进一步强化，从而获得能够应用于实际场景的专业技能。

在基于深度神经网络的NLP方法中，文本中的字/词通常都用一维向量来表示（一般称之为“词向量”）；在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列复杂的转换后，输出一个一维词向量作为文本的语义表示。特别地，我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近，如此一来，由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此，BERT模型的主要输入是文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是文本中各个字/词融合了全文语义信息后的向量表示，如下图所示（为方便描述且与BERT模型的当前中文版本保持一致，本文统一以字向量作为输入）：

从上图中可以看出，BERT模型通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示。此外，模型输入除了字向量，还包含另外两个部分：

1. 文本向量：该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合

2. 位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异（比如：“我爱你”和“你爱我”），因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分

最后，BERT模型将字向量、文本向量和位置向量的加和作为模型输入。特别地，在目前的BERT模型中，文章作者还将英文词汇作进一步切割，划分为更细粒度的语义单位（WordPiece），例如：将playing分割为play和##ing；此外，对于中文，目前作者尚未对输入文本进行分词，而是直接将单字作为构成文本的基本单位。

对于不同的NLP任务，模型输入会有微调，对模型输出的利用也有差异，例如：

单文本分类任务：对于文本分类任务，BERT模型在文本前插入一个[CLS]符号，并将该符号对应的输出向量作为整篇文本的语义表示，用于文本分类，如下图所示。可以理解为：与文本中已有的其它字/词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。

语句对分类任务：该任务的实际应用场景包括：问答（判断一个问题与一个答案是否匹配）、语句匹配（两句话是否表达同一个意思）等。对于该任务，BERT模型除了添加[CLS]符号并将对应的输出作为文本的语义表示，还对输入的两句话用一个[SEP]符号作分割，并分别对两句话附加两个不同的文本向量以作区分，如下图所示。

序列标注任务：该任务的实际应用场景包括：中文分词&新词发现（标注每个字是词的首字、中间字或末字）、答案抽取（答案的起止位置）等。对于该任务，BERT模型利用文本中每个字对应的输出向量对该字进行标注（分类），如下图所示(B、I、E分别表示一个词的第一个字、中间字和最后一个字)。

……

根据具体任务的不同，在实际应用中我们可以脑洞大开，通过调整模型的输入、输出将模型适配到真实业务场景中。

2. 模型的预训练任务

BERT实际上是一个语言模型。语言模型通常采用大规模、与特定NLP任务无关的文本语料进行训练，其目标是学习语言本身应该是什么样的，这就好比我们学习语文、英语等语言课程时，都需要学习如何选择并组合我们已经掌握的词汇来生成一篇通顺的文本。回到BERT模型上，其预训练过程就是逐渐调整模型参数，使得模型输出的文本语义表示能够刻画语言的本质，便于后续针对具体NLP任务作微调。为了达到这个目的，BERT文章作者提出了两个预训练任务：Masked LM和Next Sentence Prediction。

2.1 Masked LM

Masked LM的任务描述为：给定一句话，随机抹去这句话中的一个或几个词，要求根据剩余词汇预测被抹去的几个词分别是什么，如下图所示。

这不就是我们高中英语常做的完形填空么！所以说，BERT模型的预训练过程其实就是在模仿我们学语言的过程。具体来说，文章作者在一句话中随机选择15%的词汇用于预测。对于在原句中被抹去的词汇，80%情况下采用一个特殊符号[MASK]替换，10%情况下采用一个任意词替换，剩余10%情况下保持原词汇不变。这么做的主要原因是：在后续微调任务中语句中并不会出现[MASK]标记，而且这么做的另一个好处是：预测一个词汇时，模型并不知道输入对应位置的词汇是否为正确的词汇（10%概率），这就迫使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。

2.2 NextSentence Prediction

Next Sentence Prediction的任务描述为：给定一篇文章中的两句话，判断第二句话在文本中是否紧跟在第一句话之后，如下图所示。

当年大学考英语四六级的时候，大家应该都做过段落重排序，即：将一篇文章的各段打乱，让我们通过重新排序把原文还原出来，这其实需要我们对全文大意有充分、准确的理解。Next Sentence Prediction任务实际上就是段落重排序的简化版：只考虑两句话，判断是否是一篇文章中的前后句。在实际预训练过程中，文章作者从文本语料库中随机选择50%正确语句对和50%错误语句对进行训练，与Masked LM任务相结合，让模型能够更准确地刻画语句乃至篇章层面的语义信息。

BERT模型通过对Masked LM任务和Next Sentence Prediction任务进行联合训练，使模型输出的每个字/词的向量表示都能尽可能全面、准确地刻画输入文本（单句或语句对）的整体信息，为后续的微调任务提供更好的模型参数初始值。

3. 模型结构

了解了BERT模型的输入/输出和预训练过程之后，我们来看一下BERT模型的内部结构。前面提到过，BERT模型的全称是：BidirectionalEncoder Representations from Transformer，也就是说，Transformer是组成BERT的核心模块，而Attention机制又是Transformer中最关键的部分，因此，下面我们从Attention机制开始，介绍如何利用Attention机制构建Transformer模块，在此基础上，用多层Transformer组装BERT模型。

3.1 Attention机制

Attention: Attention机制的中文名叫“注意力机制”，顾名思义，它的主要作用是让神经网络把“注意力”放在一部分输入上，即：区分输入的不同部分对输出的影响。这里，我们从增强字/词的语义表示这一角度来理解一下Attention机制。

我们知道，一个字/词在一篇文本中表达的意思通常与它的上下文有关。比如：光看“鹄”字，我们可能会觉得很陌生（甚至连读音是什么都不记得吧），而看到它的上下文“鸿鹄之志”后，就对它立马熟悉了起来。因此，字/词的上下文信息有助于增强其语义表示。同时，上下文中的不同字/词对增强语义表示所起的作用往往不同。比如在上面这个例子中，“鸿”字对理解“鹄”字的作用最大，而“之”字的作用则相对较小。为了有区分地利用上下文字信息增强目标字的语义表示，就可以用到Attention机制。

Attention机制主要涉及到三个概念：Query、Key和Value。在上面增强字的语义表示这个应用场景中，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。如下图所示，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。

Self-Attention:对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量，如下图所示。在这种情况下，Query、Key和Value的向量表示均来自于同一输入文本，因此，该Attention机制也叫Self-Attention。

Multi-head Self-Attention:为了增强Attention的多样性，文章作者进一步利用不同的Self-Attention模块获得文本中每个字在不同语义空间下的增强语义向量，并将每个字的多个增强语义向量进行线性组合，从而获得一个最终的与原始字向量长度相同的增强语义向量，如下图所示。

这里，我们再给出一个例子来帮助理解Multi-head Self-Attention（注：这个例子仅用于帮助理解，并非严格正确）。看下面这句话：“南京市长江大桥”，在不同语义场景下对这句话可以有不同的理解：“南京市/长江大桥”，或“南京市长/江大桥”。对于这句话中的“长”字，在前一种语义场景下需要和“江”字组合才能形成一个正确的语义单元；而在后一种语义场景下，它则需要和“市”字组合才能形成一个正确的语义单元。我们前面提到，Self-Attention旨在用文本中的其它字来增强目标字的语义表示。在不同的语义场景下，Attention所重点关注的字应有所不同。因此，Multi-head Self-Attention可以理解为考虑多种语义场景下目标字与文本中其它字的语义向量的不同融合方式。可以看到，Multi-head Self-Attention的输入和输出在形式上完全相同，输入为文本中各个字的原始向量表示，输出为各个字融合了全文语义信息后的增强向量表示。因此，Multi-head Self-Attention可以看作是对文本中每个字分别增强其语义向量表示的黑盒。

3.2 Transformer Encoder

在Multi-headSelf-Attention的基础上再添加一些“佐料”，就构成了大名鼎鼎的Transformer Encoder。实际上，Transformer模型还包含一个Decoder模块用于生成文本，但由于BERT模型中并未使用到Decoder模块，因此这里对其不作详述。下图展示了Transformer Encoder的内部结构，可以看到，Transformer Encoder在Multi-head Self-Attention之上又添加了三种关键操作：

残差连接（ResidualConnection）：将模块的输入与输出直接相加，作为最后的输出。这种操作背后的一个基本考虑是：修改输入比重构整个输出更容易（“锦上添花”比“雪中送炭”容易多了！）。这样一来，可以使网络更容易训练。
Layer Normalization：对某一层神经网络节点作0均值1方差的标准化。
线性转换：对每个字的增强语义向量再做两次线性变换，以增强整个模型的表达能力。这里，变换后的向量与原向量保持长度相同。

可以看到，Transformer Encoder的输入和输出在形式上还是完全相同，因此，Transformer Encoder同样可以表示为将输入文本中各个字的语义向量转换为相同长度的增强语义向量的一个黑盒。

3.3 BERT model

组装好TransformerEncoder之后，再把多个Transformer Encoder一层一层地堆叠起来，BERT模型就大功告成了！

在论文中，作者分别用12层和24层Transformer Encoder组装了两套BERT模型，两套模型的参数总数分别为110M和340M。

4. BERT模型的文本分类效果

在本文中，我们聚焦文本分类任务，对比分析BERT模型在中/英文、不同规模数据集上的文本分类效果。我们基于Google预训练好的BERT模型（中文采用chinese_L-12_H-768_A-12模型，下载链接：https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip；英文采用uncased_L-12_H-768_A-12模型，下载链接：https://storage.googleapis.com/bert_models/2018_10_18/uncased_L-12_H-768_A-12.zip）。我们一共选择了6个数据集进行实验，各数据集的训练集/测试集大小、分类任务、类别数和语言类型如下表所示。

数据集	训练集大小	测试集大小	分类任务	类别数	语言类型
商品评论情感分析	9653	1145	情感极性分类	3	中文
Sentiment_XS	29613	11562	情感极性分类	2	中文
立场分析	2914	1249	立场分类	3	英文
AG’s News	120000	7600	新闻分类	4	英文
Yelp Review Full	650000	50000	情感分类	5	英文
Yahoo! Answers	1400000	60000	问答系统	10	英文

4.1 商品评论情感分析

该数据集旨在分析微博中表达的对特定商品的情感倾向：正面、负面或中立。我们选择了三种方法与BERT模型进行对比：

XGBoost：NGram特征+XGBoost分类器
Char-level CNN：将未分词的文本直接输入卷积神经网络（已对比发现Word-level CNN效果略差）
Attention-based RNN：将分词后的文本输入循环神经网络（已对比发现Char-level RNN效果略差），并且在最终分类前采用Attention机制融合输入各个词对应的hidden states

BERT模型与三种对比方法的正面、负面、中立情感分类F1值如下：

方法	正面F1值	负面F1值	中立F1值
XGBoost	67%	60%	91%
Char-level CNN	69%	74%	92%
Attention-based RNN	66%	71%	91%
BERT	71%	76%	92%

从上表中可以看到，BERT模型在正、负、中立F1值上均碾压了所有对比方法！

4.2 Sentiment_XS

该数据集来自于论文“SentimentClassification with Convolutional Neural Networks: an Experimental Study on aLarge-scale Chinese Conversation Corpus” （DOI:10.1109/CIS.2016.0046），旨在对短文本进行正/负面情感极性分类。我们选择论文中的部分代表性对比方法与BERT模型进行对比，包括：支持向量机分类器（SVC）、逻辑回归（LR）、Naive Bayes SVM（NBSVM）和卷积神经网络（CNN），分类准确率如下表所示（对比方法的实验数据来自于论文）。

方法	分类准确率
SVC	81.89%
LR	81.84%
NBSVM	81.18%
CNN	87.12%
BERT	90.01%

可以看到，BERT模型在Sentiment_XS数据集上的分类准确率再次碾压了所有对比方法！

4.3 立场分析

该数据集来自于国外文本分析评测比赛SemEval-2016的任务6A：有监督立场分类，旨在分析文本中对5个话题的支持、反对或中立态度，包括：有神论、气候变化、女权运动、Hillary Clinton和堕胎合法化。因此，该数据集实际上对应5个话题子集。分类效果的官方评估指标为支持类别F1值和反对类别F1值的宏平均。我们选择了当前立场分析领域的四个最优方法与BERT模型进行对比，包括：

SVM：NGram特征+支持向量机分类器，该方法取得了当时参加评测的所有方法的最优分类效果
MITRE：基于循环神经网络（LSTM）的方法，在参加评测的神经网络方法中取得最优效果
pkudblab：基于卷积神经网络的方法，在参加评测的神经网络方法中效果仅次于MITRE
TGMN-CR：结合动态记忆模块与循环神经网络的方法，近期提出的最新方法

上述方法与BERT模型在5个数据子集上的分类效果如下表所示（对比方法的数据来自于论文：A Target-GuidedNeural Memory Model for Stance Detection in Twitter，DOI：10.1109/IJCNN.2018.8489665）。

方法	有神论	气候变化	女权运动	Hillary Clinton	堕胎合法化
SVM	65.19%	42.35%	57.46%	58.63%	66.42%
MITRE	61.47%	41.63%	62.09%	57.67%	57.28%
pkudblab	63.34%	52.69%	51.33%	64.41%	61.09%
TGMN-CR	64.6%	43.02%	59.35%	66.21%	66.21%
BERT	75.51%	46.04%	55.35%	67.54%	62.5%

从上表中可以看到，BERT模型在2个数据子集中都取得了最优效果，尤其是“有神论”数据集，F1值超过当前最优算法约10%！不过，在其余三个数据子集中，BERT模型的表现比较一般。

4.4 AG’s News& Yelp Review Full & Yahoo! Answers

这三个数据集算是文本分类领域的经典数据集了，分别对应新闻分类、情感分类和问答系统任务。这里，我们选择了4种在这三个数据集上进行过实验验证的方法与BERT模型进行对比，包括：

char-CNN：将未分词的文本直接输入卷积神经网络
FastText：一种用于文本分类的快速神经网络方法
VDCNN：Very Deep CNN，顾名思义，非常非常深的卷积神经网络Region embedding：利用局部文本语义信息增强文本中每个词的语义向量表示，输入到一个简单神经网络中进行分类
DPCNN：Deep Pyramid CNN，同样是非常深的神经网络，通过池化操作使网络的每层神经元个数不断减半，因此，整个神经网络看起来像是一个金字塔结构

上述对比方法与BERT模型在三个数据集上的分类准确率如下表所示（对比方法的数据来自于论文：A New method ofRegion Embedding for Text Classification和Deep PyramidConvolutional Neural Networks for Text Categorization）。

方法	AG’s News	Yelp Review Full	Yahoo! Answers
char-CNN	87.2%	62%	71.2%
FastText	92.5%	63.9%	72.3%
VDCNN	91.3%	64.7%	73.4%
Region embedding	92.8%	64.9%	73.7%
DPCNN	93.1%	69.4%	76.1%
BERT	94.6%	66.0%	74.2%

上表表明，BERT模型在AG’s News数据集上取得了最高的分类准确率，在Yelp Review Full和Yahoo! Answers数据集上也都取得了次高的分类准确率。需要注意的是，我们目前仅使用12层Transformer Encoder结构的BERT模型进行实验，后续会进一步检验24层TransformerEncoder结构的BERT模型的分类效果，可以期待，BERT模型的分类效果应该会随着网络结构的加深而进一步有所提高。

5. 结语

本文分析了BERT模型的内部结构与原理，并在文本分类任务上检验了模型效果。从实验结果中可以看出，BERT模型的文本分类效果在许多中/英文数据集上都超过了现有方法，体现出了很强的泛用性。后续我们将继续检验BERT模型在其它NLP任务中的效果，并研究提升模型训练效率的方法，欢迎大家批评与指正！

Citations

Devlin J, Chang M W, Lee K, et al. Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805, 2018.

Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need[C]//Advances in Neural Information ProcessingSystems. 2017: 5998-6008.

Zhang L, Chen C. Sentimentclassification with convolutional neural networks: an experimental study on alarge-scale Chinese conversation corpus[C]//Computational Intelligence andSecurity (CIS), 2016 12th International Conference on. IEEE, 2016: 165-169.

Mohammad S, Kiritchenko S, Sobhani P, etal. Semeval-2016 task 6: Detecting stance in tweets[C]//Proceedings of the 10thInternational Workshop on Semantic Evaluation (SemEval-2016). 2016: 31-41.

Zarrella G, Marsh A. MITRE atsemeval-2016 task 6: Transfer learning for stance detection[J]. arXiv preprintarXiv:1606.03784, 2016.

Wei W, Zhang X, Liu X, et al. pkudblabat semeval-2016 task 6: A specific convolutional neural network system foreffective stance detection[C]//Proceedings of the 10th International Workshopon Semantic Evaluation (SemEval-2016). 2016: 384-388.

Wei P, Mao W, Zeng D. A Target-GuidedNeural Memory Model for Stance Detection in Twitter[C]//2018 InternationalJoint Conference on Neural Networks (IJCNN). IEEE, 2018: 1-8.

Joulin A, Grave E, Bojanowski P, et al.Bag of tricks for efficient text classification[J]. arXiv preprintarXiv:1607.01759, 2016.

Conneau A, Schwenk H, Barrault L, et al.Very deep convolutional networks for natural language processing[J]. arXivpreprint, 2016.

Johnson R, Zhang T. Deep pyramidconvolutional neural networks for text categorization[C]//Proceedings of the55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). 2017, 1: 562-570.

你可能感兴趣的:(BERT模型图解)

Azure 基础 SmallFatMan #Azure azure microsoft 运维 linux 服务器学习面试
Azure基础一、Azure基础知识简介二、云计算简介？三、责任共担四、你始终负责：五、云服务提供商始终负责：六、云模型1、私有云2、公有云3、混合云4、多云一、Azure基础知识简介MicrosoftAzure是一个云计算平台，提供一系列不断扩展的服务，可帮助你构建解决方案来满足业务目标。Azure服务支持从简单到复杂的一切内容。Azure具有简单的Web服务，用于在云中托管业务。Azure还支
.net开发面试题神之王楠 .net 面试
一、.NET初级开发包括关于.NET基础知识、C#编程语言、ASP.NETMVC框架等方面的问题。什么是.NET？C#中的委托是什么？请简述private、protected、public、internal修饰符的访问权限。什么是ASP.NETMVC？在ASP.NETMVC中，模型、视图和控制器的作用是什么？什么是视图模型（ViewModel）？简述装箱和拆箱的概念。二、.NET中级开发涉及.NE
LLM大模型部署实战指南：部署简化流程汀、人工智能 AI Agent LLM工业级落地实践人工智能
LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发1.Ollama部署的本地模型()Ollama是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。，这是Ollama的官网地址：https://ollama.com/以下是其主要特点和功能概述：简化部署：Ollama目标在于简化在Docker容器中部署大型语言
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
【Codex】Evaluating Large Language Models Trained on Code NLP_wendi 深度学习 Transformer deep learning 人工智能
这篇文章来解读最近比较有意思的Transformer预训练模型在自动生成代码方面的应用，PaperLink:EvaluatingLargeLanguageModelsTrainedonCode自动生成Code系列文章解读：【AlphaCode】Competition-LevelCodeGenerationwithAlphaCodeAbstract我们提出了Codex模型，基于GPT的模型架构，在G
大模型系列-fastgpt,ollama搭建本地知识库 GeekPlusA 人工智能人工智能深度学习 AIGC fastgpt 知识库
大模型系列-fastgpt,ollama搭建本地知识库1.安装fastgpt,oneapi2.安装ollama运行大模型2.1.安装ollama2.2.ollama下载模型3.安装开源的文本向量模型小技巧阿里云部署fastgptoneapi,并且在本机映射autodl的ollama端口docker运行m3e错误解决1.docker-composeup-d后oneapi不能启动2.oneapi配置大
Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
OpenCV相机标定与3D重建(2)鱼眼相机模型 jndingxin OpenCV 数码相机 opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述鱼眼相机是一种具有非常宽视野的相机，通常会产生强烈的径向畸变。鱼眼相机模型旨在捕捉这种畸变，以便能够准确地处理和校正图像。鱼眼相机模型通常使用多项式函数来描述径向畸变。定义：设P是世界参考系中的一个3D点，其坐标为X(存储在矩阵X中）。点P在相机参考系中的坐标向量
探索LangChain中OpenAI模型的token级log probabilities jkgSFS langchain easyui 前端 python
在AI模型的开发和调试中，了解每个生成token的概率是非常有用的。这些信息可以帮我们理解模型的决策过程，识别可能的错误。本篇文章将介绍如何通过LangChain与OpenAI整合来获取这些token级的logprobabilities。技术背景介绍什么是LogProbabilities？在自然语言处理中，logprobabilities是一种对token生成概率的度量。通常，这个值越高，表示生成
使用VolcEngine Maas Chat进行语言模型对话的入门指南 dagGAIYD 语言模型人工智能自然语言处理 python
技术背景介绍VolcEngineMaasChat模型提供了一种便捷的方式进行对话接口的设计与实现，特别是对于自然语言处理(NLP)应用。通过简单的API调用，开发者可以轻松集成强大的AI对话能力到他们的应用中。本文将指导您如何使用VolcEngineMaasChat进行对话交互。核心原理解析VolcEngineMaasChat利用大语言模型来处理和生成自然语言，在接收到用户的输入后，模型会通过分析
使用iFlyTek SparkLLM进行实时聊天应用开发 dagGAIYD 前端 javascript java python
技术背景介绍在当今的AI应用开发中，实时对话模型越来越受到重视。iFlyTek的SparkLLM为开发者提供了强大的聊天模型API，支持灵活的集成和扩展。本文将介绍如何使用SparkLLM搭建一个简单的聊天应用，包括基本的API初始化和调用，以及如何实现流式输出。核心原理解析SparkLLM是一款基于大规模语言模型的对话生成系统。它的核心在于通过自然语言理解和生成，实现人机之间的自然交流。通过使用
如何使用 LangChain 实现模型功能调用 dagGAIYD langchain python
在本文中，我们将探索如何使用LangChain框架实现语言模型（LLM）的功能调用。这是构建智能对话系统、工具调用代理等应用的核心能力。通过本文，你将能够理解模型功能调用的原理，并学习如何在代码中实现这一功能。技术背景介绍功能调用是近年来语言模型（特别是ChatGPT等对话模型）的一个重要特性。它允许开发者定义特定的工具或功能，并让模型根据上下文自动决定是否调用这些功能，以及如何调用。LangCh
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
重建大师倾斜高斯泼溅技术（OPGS）重建出来的模型是什么格式？大势智慧实景三维一问一答重建大师三维模型倾斜影像 OPGS 高斯泼溅
重建大师OPGS重建出来的模型是ply格式，三维高斯球体渲染的3D效果。重建大师是一款专为超大规模实景三维数据生产设计的集群并行处理软件，支持卫星影像、航空影像、倾斜影像和激光点云多源数据输入建模，可完成超大规模数据的空三解算、自动三维建模，输出高精度彩色网格模型。重建大师已更新7.0版本，如需请添加Das小助理获取，欢迎大家下载！
【HarmonyOS NEXT 】应用开发：ArkTS工程目录结构（Stage模型）纳米小川 HarmonyOS harmonyos 华为
【HarmonyOSNEXT】应用开发：ArkTS工程目录结构（Stage模型）一、目录结构二、部分目录及文件介绍SDK：5.0.0DevEcoStudio：5.0.3Node.js：18.20.1一、目录结构├─AppScope├─app.json5//应用的全局配置信息├─entry//应用/服务模块，编译构建生成一个HAP。├─src├─main├─ets//用于存放ArkTS源码├─ent
Gradio + Transformers** 实现带记忆功能的对话系统完整代码示例大霸王龙 python python 开发语言
以下是一个使用Gradio+Transformers实现带记忆功能的对话系统完整代码示例，无需额外数据库依赖：importgradioasgrimportnumpyasnpfromtransformersimportAutoTokenizer,AutoModelfromtypingimportDict,List,Tuple#-----------------初始化模型---------------
速通 AI+Web3 开发技能: 免费课程+前沿洞察 OpenBuild.xyz 人工智能 web3 区块链去中心化
AI正以前所未有的速度重塑各行各业，从生成式模型到大规模数据处理，AI逐渐成为核心驱动力。与此同时，Web3去中心化技术也在重新定义信任、交易和协作方式。当这两大前沿技术相遇，AI+Web3的融合已不再是理论，而是未来趋势，有望催生出颠覆性的创新应用和商业模式。AI提供智能化工具和算法支持，Web3则为数据和应用赋予了去中心化的灵魂，二者结合将开创全新的技术生态。无论是智能合约中的AI决策，还是链
SOA概览 qin87 webservice soa web服务文档 xml 服务器 weblogic
最近半年以来，在企业级应用开发领域，谈论最多的一个词，恐怕非SOA(Service-OrientedArchitecture，面向服务架构)莫属。那么SOA究竟拥有什么样的魔力，能够让众多的软件厂商对他趋之若骛，掀起新的一轮企业架构浪潮。让我们在本文中一探SOA的究竟。那么什么是SOA，让我们先从基本概念开始讲起。什么是SOA?SOA是一种架构模型，它可以根据需求通过网络对松散耦合的粗粒度应用组件
从ErnieBotChat迁移到QianfanChatEndpoint的实践指南 fGVBSAbe python
技术背景介绍ErnieBot是由百度开发的大型语言模型，拥有强大的中文数据处理能力。然而，由于ErnieBotChat在功能和维护上的不足，官方建议开发者切换到功能更强大的QianfanChatEndpoint。QianfanChatEndpoint在流式传输、函数调用能力等方面提供了更为先进的支持。核心原理解析QianfanChatEndpoint是百度Qianfan平台的一部分，提供了更为灵活
【限时免费使用】字节跳动新中文AI——Trae：直接对标Cursor 查理零世人工智能 AIGC chatgpt AI编程
话不多说点此进入https://www.trae.ai/Trae是字节跳动新推出的中文AI客户端IDE，可以理解为国产Cursor，但是现在是免费（目前知道的人不多）内置GPT-4o和Claude-3.5-sonnet它里面使用的不是垃圾的国产大模型，而是GPT-4o以及Claude-3.5-sonnet，代码准确率可以说是现在所有AI的天花板了。支持AI问答、代码自动补全、基于Agent的AI编
2025年前端面试题汇总涔溪前端
JavaScript核心异步编程Promise、async/await的工作原理及应用场景。如何处理并发请求，使用Promise.all()或Promise.race()等方法。解释事件循环机制，理解微任务（microtask）与宏任务（macrotask）的区别。原型链深入理解JavaScript中的原型继承模型。举例说明如何通过修改原型对象影响所有实例。闭包定义闭包及其作用，如实现私有变量和函
蓝桥杯算法日常|枚举[*找到最多的数] 幼稚鬼？ 25/1/8寒假蓝桥杯练习日志专栏算法蓝桥杯哈希算法
**找到最多的数**重点疑问总结：1、数组输入输出c++一般会采用那种方便的方式？？用的就是我想的那种，就是用的最大范围定义的。2、怎样方便给数组中每个数出现的次数计数？？刚开始想的是：每个数把全部的数比较一下子最后发现最佳方法是：哈希表，这里用了一个数组，数组下标表示统计的哪个数，数组的值是该数出现的次数。题目截图解题思路：遍历矩阵，将每个数字及其出现次数存储在一个哈希表（这里使用数组模拟哈希表
游戏策划的分类 yaoyaoyao可爱呀游戏策划
P3游戏策划分类1.程序2.美术3.策划程序：一般分为客户端程序和服务器程序客户端程序一般负责游戏的前端画面表现服务器程序负责游戏的后端运算美术：角色原画，角色模型动作，场景原画，场景模型，UI设计，特效设计程序，美术，运营项目经理：给各个岗位同事安排工作计划，推进项目进度策划：主策划（4—5年）对游戏的设计进行统筹的规划和管理对工作进行分配和验收系统策划：游戏玩法和系统设计数值策划：游戏玩家的血
在Python中进行openAI接口调用 MartinGaoC python 开发语言人工智能 DALL·E 2 文心一言 gpt-3
在Python中进行openAI接口调用一、环境配置二、安装OpenAISDK三、新建一个index.py文件运行效果四、目前支持的模型列表写在最后一、环境配置确保已经安装了Python后安装pip命令python-mensurepip--default-pip卸载python-mpipuninstallpip查看是否安装成功pip--version二、安装OpenAISDK进入项目文件夹下，安装
WebRover：专为训练大型语言模型和 AI 应用程序而设计的 Python 库数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
学习OpenEuler的经验分享 leegong23111 学习华为
学习OpenEuler的实用经验分享想要精通OpenEuler，扎实的基础是首要前提。建议从官方网站下载并研读技术文档，这些文档涵盖内核原理、系统架构和网络模型等关键知识，为后续学习筑牢根基。官方文档不仅全面，还紧密贴合最新版本特性，能让你紧跟技术前沿。比如，在理解OpenEuler内核调度机制时，官方文档详细阐述了任务分配和资源管理原则，让对系统底层运行逻辑有了清晰认知。同时，参考专业书籍也极为
YOLOv11目标检测模型部署到微信小程序上小阿技术 YOLO 目标跟踪人工智能微信小程序目标检测计算机视觉 python
1.效果YOLOv11目标检测模型部署到微信小程序上2.后端主要代码importosimporttimeimportnumpyasnpimporttorchfromflaskimportFlask,request,send_fileimportcv2fromultralyticsimportYOLO#导入YOLOv11模型，需要提前安装ultralytics库#初始化Flask应用app=Flas
Linux网络 TCP socket 我要满血复活网络 linux tcp/ip
TCP简介TCP（TransmissionControlProtocol）是一种面向连接的、可靠的、基于字节流的传输层通信协议。它位于OSI模型的第四层，主要为应用层提供数据传输服务。TCP通过三次握手建立连接，确保数据在发送和接收过程中的准确性和顺序性。TCP的主要特点可靠性：TCP通过序列号、确认应答、超时重传等机制保证数据可靠传输。面向连接：通信双方在传输数据前需要建立连接，通信结束后释放连
人类大脑与大规模神经网络的对比及未来展望东方佑量子变法神经网络人工智能深度学习
引言随着人工智能（AI）技术的迅猛发展，研究人员不断尝试构建更加复杂和强大的模型，以期实现与人类大脑相媲美的智能水平。本文将探讨当前大规模神经网络（LLM,LargeLanguageModels）的发展现状，并基于现有数据对未来进行预测。特别地，我们将分析达到人类大脑突触连接规模所需的时间框架、可能面临的挑战以及使用转义词表技术所带来的优势。人类大脑的基本结构人类大脑是一个极其复杂的系统，包含大约
SVM模型实战1 浊酒南街 #支持向量机机器学习 python
目录前言实战前言这里有一份手写体字母识别的数据，我们采用网格搜索法，分别测试LinearSVC和SVC模型，最终选择SVC模型，并计算预测结果的准确性。实战#导入第三方模块fromsklearnimportsvmimportpandasaspdfromsklearnimportmodel_selectionfromsklearnimportmetrics#读取外部数据letters=pd.read
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc