谈笑风生...

Bert和Albert、XLNet的前世今生

在之前的一篇题为NLP词向量模型总结：从Elmo到GPT,再到Bert的博文中，详细介绍了ELMO、GPT、Bert三者之间千丝万缕的关系，时代在发展，论文在更新，工具在进步，站在巨人(Bert)的肩膀上，出现了一系列的后Bert模型，一个比一个强大，本文着重讲解其中的佼佼者-Albert和XLNet。

Bert的减肥之路–AlBert

背景

ALBERT是19年由Google蓝振忠等人发表的一种轻量级BERT，是BERT众多变体中的一种。可谓是将原先的BRET进行了一次“大瘦身”。其最初的设计灵感来源于卷积视觉中的AlexNet(因为蓝振忠博士在研究生阶段就是做CV出身的)，旨在通过将BERT中的模型参数大幅度减少，解决参数过多超出内存导致无法将网络加深、加宽的问题。
蓝振忠博士和其组内成员分析了BERT的参数组成，将模型参数分为两部分：

Token Embedding-----------约占20%
Attention Feed-forward-----约占80%
因此，蓝博决定从上面两个方向去对BERT参数进行改动。

基于Embedding的因式分解

下面的内容前，我们规定几个参数，词的embedding我们设置为E，encoder的层数我们设置为L，hidden size即encoder的输出值的维度我们设置为H，前馈神经网络的节点数设置为4H，attention的head个数设置为H/64。
在BERT中，词embedding与encoder输出的embedding维度是一样的都是768。但是ALBERT认为，词级别的embedding是没有上下文依赖的表述，而隐藏层的输出值不仅包括了词本生的意思还包括一些上下文信息，理论上来说隐藏层的表述包含的信息应该更多一些。所以，没有必要让E=H，而产生更多的参数，感觉有点得不偿失。因此应该让H>>E，所以ALBERT的词向量的维度是小于encoder输出值维度的。

在NLP任务中，通常词典都会很大，embedding matrix的大小是E×V，如果和BERT一样让H=E，那么embedding matrix的参数量会很大，并且反向传播的过程中，更新的内容也比较稀疏(比方说词表长度为3W，每次却只能更新一个)。

于是ALBERT采用了一种因式分解的方法来降低参数量。首先把one-hot向量映射到一个低维度的空间，大小为E，然后再映射到一个高维度的空间，说白了就是先经过一个维度很低的embedding matrix，然后再经过一个高维度matrix把维度变到隐藏层的空间内，从而把参数量从
O（V x H）降到O（V x E + E x H），当E< 如下图所示：

可以看到实验结果表示，在模型性能基本不变的情况下（0.6%）,Embedding层的参数减少了80%以上。

跨层的参数共享

只通过词向量的维度减少来降低参数量，是不够的，Albert提出了一种参数共享的方法，Transformer中共享参数有多种方案，只共享全连接层，只共享attention层，ALBERT结合了上述两种方案，全连接层与attention层都进行参数共享，也就是说共享encoder内的所有参数，同样量级下的Transformer采用该方案后实际上效果是有下降的，但是参数量减少了很多，训练速度也提升了很多。想法是怎么来的呢？看下面。
蓝博参考了论文“Efficient training of bert by progressively stacking”对 Attention&Feed-Forward 层可视化的结果，发现对于encoder的各层，其参数在结构上呈现一种相似性（下图中的第一列其实就是[CLS]标记，每一个encoder层除了参数大小不一样，分布结构上呈现很强的一致性）：

如果能够把所有 Attention&Feed-Forward 层的参数进行共享，那么BERT模型的参数又将是下降一个数量级的,实验结果如下：

在模型深度保持不变的前提下，将 Attention&Feed-Forward 层的所有参数共享，使得参数从原先的108M降低到了31M，而精度并没有太大的降低（2.5%）
最终，ALBERT将Token Embedding 层参数从原先E=768降低到E=128，并将Attention&Feed-Forward层的所有参数进行共享。将BERT最开始108M的参数压缩到12M，同时精度仅掉了2.2%！
随后，兰博团队将压缩之后的网络进行了大规模的加宽、加深，并且进行了长时间的训练。最终的结果如下：

最终参数减少30%的情况下，还提升了ALBERT 3.5%的精度，这个结果可以说是非常不错的了。但是这样做的代价同样很昂贵，ALBERT花了BERT3倍的时间才将模型训练至收敛。（因为毕竟网络被加宽加深，模型变得比BERT还要复杂，而这些新增的参数还是需要被更新，更何况这些参数还都是被refine共享过的，所以在计算上没有地方可以偷懒。一种典型的以时间换空间的做法）

句间连贯（Inter-sentence coherence loss）

我们知道BERT的sentence-level实现的很重要的一点就是进行了NSP（Next Sentence Prediction）。其意图是为了训练模型对句子连续性的把握，但是对于负样本的采样，BERT的策略却是从整个语料库中随机抽取样本，这将会带来一个潜在的问题：网络很有可能学到句对间topic的判别，而不是句对连续性的把握。显然，前者的难度远低于后者，但是这并不是BERT的本意。这也就是为何在许多下游任务中，将NSP这个任务去掉，BERT产生的性能反而更好的原因。
ALBERT做出的一个很重要的改进就是强制让模型去辨别句对连续性，即SOP（Sentence Oder Prediction），而它采用的策略极其简单—负样本的获得，是通过正样本两个句对顺序的颠倒。看似简单的操作，却保障了负样本的两个句子是从属于同一个topic，而句序是明显错误的效果。
下图是SOP代替了NSP之后产生的效果：

可以看到SOP不管是在真正的SOP任务上，精度达到86.5%，同时对于真正的下游NSP任务，效果也不是很差，达到了78.9%（蓝色框）。但是NSP明显只能在NSP任务上取得high score（一方面也是因为这样的任务更简单）

去除MLM(masked LM)中的drop out

BERT的训练本就是基于大量的网络文本、书籍文献。从这个角度讲，BERT其实完全没有必要去担心over fitting.由于MLM本身就是一个非常有难度的任务（困难版完形），没必要再去添加噪声刁难它，只要拥有足够的算力，BERT理论上只会越学越好。
在去掉了drop out 之后，下游任务貌似只有轻微的提升：

以上就是Albert在基于Bert上的改进。

Bert的进阶之路–XLNet

XLNet 是一个类似 BERT 的模型，而不是完全不同的模型。但这是一个非常有前途和潜力的。总之，XLNet是一种通用的自回归预训练方法。在将XLNet之前，先要了解两个概念Autoregressive 和 Auto-encoding。

自回归模型和自编码模型

Autoregressive（自回归模型）：自回归是时间序列分析或者信号处理领域喜欢用的一个术语。可以直接理解成语言模型，即一种基于上文预测下文，或者基于下文预测上文的语言模型。典型的代表是GPT、ELMo.
Auto-encoding(自编码模型)：什么叫做自编码？说的通俗一点，其实就是一个自个儿和自个儿玩的模型（自己和自己下棋，自己和自己对唱…玩着玩着棋艺就变高了，玩着玩着唱功就变好了）。最开始自编码的提出是想要通过一个深度网络，对数据进行压缩成低纬，之后解压缩还原原始数据，目的为了获得输入数据的更加有效的表示。但是这样的一种模式非常适用于无监督的pre-training.
和CV不同，在NLP领域，我们不得不面对的一个问题就是我们有大量的数据，可是我们没有标注。正是由于这个原因，完全无监督预训练网络对于许多label稀少的下游任务来说十分重要，而Auto-encoding这种LM则正是NLP迁移学习的一个理想模型，就如本文开篇说的那样。而BERT就是Auto-encoding的一个典型代表。不仅如此，BERT采用了MLM，在输入层加入一定的噪音，是一种典型的DAE LM(Denoising Autoencoder)。

自回归模型和自编码模型的对比

自回归模型的一般形式可以用下面这幅图表示：
自回归模型旨在利用序列的单向迭代，通过已知的上文信息Pθ（Xt | X

training和fine-tuning具有一致性，天然匹配某些下游任务。（文本生成类，一个个往外面吐字的，如机器翻译、摘要…）
模型没有基于条件独立假设（目标函数中用的是"="符号，从概率的角度讲这个性质很好，这点需要和Auto-encoding进行对比）。

缺点是无法实现同时双向

自编码模型表示如下图：
由于是DAE LM，因此在目标函数中加了一个mt,取值为[0,1]，作用相当于对被Mask掉的单词的开关。
有人可能会注意到，这里的目标函数和Autoregressive不一样，很重要的一点是Auto-encoding的目标函数中间用的是约等于符号。这是因为等号右边式子的值并不服从product rule(条件概率的乘法法则)，所以Auto-encoding模型具有独立性假设。
比方说上图，把句字New York is a city的New York给mask了，目标是预测被遮住的New York，即求得 P(New York|is a city) 并将其最大化(先不考虑log)。这里先把“is a city”当作是一个整体，把它用C代替,“New"和“York“分别用A、B表示。所以我们的目标就是max P(AB|C)。
为了计算这个联合概率，假设事件A和事件B是条件独立的，即P(AB|C)≈P(A|C)*P(B|C)
放到上面这个句子，也就是P(New York|is a city)≈P(New|is a city)*P(York|is a city)。但是很明显，对于"New”、"York"来说，离开了其中任何一个，另一个剩下的也失去了原本含义，因为本身这两个token是属于一个单词的。在遇到这种情况时，Auto-encoding的条件独立假设就会存在比较严重的问题，因为它强行将token之间原本可能存在的关联性给打破了。
所以，总结起来其缺点就是：

预训练中使用 [MASK]，但这种人为的符号在调优时在真实数据中并不存在，会导致预训练-调优的差异；
基于条件独立性假设，假设预测（掩蔽）的标记彼此独立，但是实际情况并不是这样，模型应该学习预测（掩蔽）词之间的这种相关性来预测其中一个词。

当然，优点就是可以实现同时双向。

从这里可以发现，Autoregressive 和 Auto-encoding之间的优缺点刚好反一下，那么有没有一种模型，可以兼顾Autoregressive 和 Auto-encoding的优点呢？这也就是XLNet的诞生初衷。

XLNet的诞生

在XLNet诞生之前，预训练方面存在着两大阵营，分别是以ELMo、GPT一众为代表的AR（Auto regressive）和以BERT为首的 AE（Auto-encoding）。这两大阵营都存在着各自的优点和缺点，但是其优缺点大致上呈现一种互补关系。为了能够同时兼顾这两大范式的优点，19年Google brain结合了当时最先进的自回归模型Transformer-XL,提出了一种采用泛化自回归，克服BERT等自编码模型缺点的新模型—XLNet.
XLNet一出，BERT之前连战11项的巅峰记录被无情刷了下去。XLNet在20 个任务上超过了BERT的表现，并在18个任务上取得了当前最佳效果，其中包括了包括机器问答、自然语言推断、情感分析和文档排序。
那么XLNet到底是采用了什么方法进行AR与AE的融合的呢？Permutation！！！

Permutation Language model

XLNet采用的是自回归模型，同时运用了BERT引以为傲的MLM训练模式，即给定一个句子，将其中的一部分单词进行Mask,然后利用剩下的句子信息去还原被mask的单词。由于是采用自回归，BERT这种自编码模型的两个缺点：训练与下游不协调、独立性假设损失关联性， XLNet就可以很自然地避开。那么XLNet要解决的首要问题就是如何实现同时双向融合。
为了解决这个难题，XLNet想出了一个聪明的点子----Permutation Language model(排列组合模型)。

所谓排列组合，就是把输入的句子进行全排列，每一种排列方式进行一次Mask预测，最后取所有全排列下的期望值。比方说现在输入的句子是：boy next door，把’next‘用Mask替换掉，如果不采用全排列，直接将输入喂给AR，也就是"boy [Mask] door"，那么模型只能单向地提取到"boy"的信息。
而Permutation Language model要做的就是将上述的句子产生3！种排列情况：

boy [Mask] door
boy door [Mask] 
[Mask] boy door
[Mask] door boy
door [Mask] boy
door boy [Mask]

对于每一种排列，单向地计算[Mask]位置的原词概率，计算的公式就是之前讲过的AR的product rule.

最后将6种排列的结果取一个期望，由于所有的排列情况都被考虑进去，在预测过程中，Mask的位置就已经获得了上下文的全部信息。
XLNet就是通过这种将输入顺序打乱重排的方法，来实现基于AR的同时双向。
当然，在实际训练的过程中，由于输入的长度会很大，因此计算所有排列情况实际上是不可行的，这会产生巨大的时间消耗。因此XLNet每次只在全排列中取一部分。

实现细节

在实现这个乱序采样的过程中，XLNet做的并不是真的将输入打乱顺序，而是采用了打乱order的方法。具体过程如下图：

$Z_T$ 表示所有order组成的集合。拿之前那个例子来说就是：

boy     [Mask]   door ---------【1，2，3】
boy      door   [Mask] --------【1，3，2】
[Mask]   boy     door----------【2，1，3】
[Mask]   door    boy-----------【2，3，1】
door    [Mask]   boy-----------【3，2，1】
door     boy    [Mask]---------【3，1，2】

$Z_T$ ={【1，2，3】、【1，3，2】、【2，1，3】、【2，3，1】、【3，2，1】、【3，1，2】}
而每次要做的，就是从ZT 中抽取一个order Z ,比方说 Z =【1，3，2】,然后用这个order去计算Mask位置的概率：P(boy door next)=P(boy)*P(door|boy)*P(next|boy door)
然后重复上述抽样过程。

再详细一点，假如说现在输入有四个单词，被Mask的是3号位置的单词，我们可以看一下不同order下的不同处理。
如果现在随机抽到的order是【3，2，4，1】，那么这个过程就会像下图。由于现在的order里，3是第一个，所以它获取不到任何信息，因此计算 $h_3^{(1)}$ 只会用到一个默认的cell–mem。

假设order是【2，4，3，1】，那么计算 $h_3^{(1)}$ 将会需要2、4的信息：

所以可以看到，所谓的打乱并不会真的改变输入序列的顺序，只是将order随机打乱，再根据order去获得预测Mask需要考虑位置。
另外，XLNet在实现不同的order上采用的是 Attention Mask 矩阵，例如【3，2，4，1】，他的 Attention Mask 矩阵就是下面这幅图：

比方说现在要预测4，那么需要考虑的上文是3和2， Attention Mask 矩阵的第4行就只有2，3两列是1，其他地方是0；再比如要预测3，这个order下3前面没有任何信息，所以 Attention Mask 矩阵的第三行全为0.

Two-Stream Self-Attention

到目前位置，我们可以看到，利用全排序的XLNet既解决了自编码模型的缺点，又能同时捕捉上下文信息。那么它是否已经是没有问题存在的了呢？答案是否定的，因为这样做，会导致导致位置信息的丢失。举个例子如下，比方说现在的输入是这样一个句子：

圆月弯刀是古龙经典武侠小说

假设我们运气不好，Mask的时候"圆月"、"弯刀"两个字刚好都被遮住了。

mask mask 是古龙经典武侠小说

随后我们按照XLNet的做法对order集合 ZT 进行抽样,我们运气又很差，抽到下面这个排列：

是古龙经典武侠小说 mask mask

由于被预测的两个Mask都被排在最后两个字，因此在从左到右计算任何一个位置的Mask时，计算出来的"圆月"和"弯刀"概率结果是一模一样的，并且，如果现在问你这两个Mask哪个是"圆月"，我也不知道了，这就是乱序带来的问题，以为缺失了位置信息。
回顾一下Bert是如何做的？
Bert采用的做法十分简单粗暴，直接将position Embedding 和输入的Token Embedding直接拼接。那么是否在XLNet里也可以把位置信息（position Embedding）和内容信息（Token Embedding）直接结合呢？答案是XLNet提出了一个Two-Stream Self-Attention(双流注意力)，它将每个Transformer cell分为两个部分：

content representation：包含了所有上下文信息（内容+位置）
query representation：仅包含了当前的位置信息

在上图中，蓝色的路径表示位置信息的传播，红色的是全部信息，可以看到实现双流自注意力之后，XLNet可以做到不向模型透露内容的前提下，加入有关于预测位置的位置信息。

到这里就讲的差不多了。
有关于这些前沿的模型，光看blog是不够的，只有摸过论文、代码才能正真get好多细节。

Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
面向大语言模型幻觉的关键数据集：系统性综述与分类法致Great 语言模型人工智能自然语言处理
面向大语言模型幻觉的关键数据集：系统性综述与分类法摘要大语言模型（LargeLanguageModels,LLMs）在自然语言处理的多个领域取得了革命性进展，但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象，学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
推荐几本人工智能方面的书（入门级）人邮异步社区人工智能深度学习神经网络
以下推荐几本适合入门人工智能的书籍，帮助你逐步建立基础知识和理解：一、数学基础类《数学之美》推荐理由：深入浅出地讲解了自然语言处理与搜索方向的数学原理，对于理解算法背后的数学逻辑非常有帮助。本书的章节名称，有“统计语言模型”“谈谈中文分词”“贾里尼克和现代语言处理”“布尔代数和搜索引擎”“信息指纹及其应用”等，似乎太过专业，实际上高中和大学低年级的同学们都能看得懂，当然本书因此也可以称得上是“高级
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {