SunnyGJing

中文生成模型T5-Pegasus详解与实践

我们在前一篇文章《生成式摘要的四篇经典论文》中介绍了Seq2seq在生成式研究中的早期应用，以及针对摘要任务本质的讨论。

如今，以T5为首的预训练模型在生成任务上表现出超出前人的效果，这些早期应用也就逐渐地淡出了我们的视野。本文将介绍T5的多国语言版mT5及其变种T5-Pegasus，以及T5-Pegasus如何做到更好地适用于中文生成，并介绍它在中文摘要任务中的实践。

本文结构

- 1. mT5
- - 1.1 Text-to-Text 结构
  - - 细节一. 相对位置编码
    - 细节二. 无均值的归一化
    - 细节三. 无dk的注意力得分
    - 细节四. Dropout策略
    - 细节五. 无bias且采用GLU的全连接层
    - 细节六. Softmax层与Embedding层不共享参数
  - 1.2 有监督/无监督预训练任务
- 2. T5-Pegasus
- - 2.1 新的Tokenizer与更小的词表
  - 2.2 伪摘要式预训练任务
- 3. 中文摘要生成实践

1. mT5

T5模型出自Google团队的《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》，是一个Encoder-Decoder结构的Transformer预训练语言模型，在各大NLP生成任务中表现优异，一举刷新了多个NLP任务的榜单。

mT5，即Multilingual T5，T5的多国语言版。mT5出自Google团队的《mT5: A massively multilingual pre-trained text-to-text transformer》，mT5的预训练语料涵盖了101种语言，其中包括了中文。

1.1 Text-to-Text 结构

以Text-to-Text为目标的mT5，采用完整的Transformer模型结构。对Transformer不了解的读者，可以看下我的博客《Transformer回顾与细节》。

这里只关注 mT5 与传统Transformer的不同之处。

细节一. 相对位置编码

mT5采用相对位置编码。具体地，我们先看常规self-Attention计算过程：
$\begin{aligned} a_{ij} &= softmax[\frac{(x_i W^Q)(x_j W^K)^T}{\sqrt{d_k}}] \\ z_{i}&=\sum_{j=1}^n {a_{ij}(x_j W^V)} \end{aligned}$

相对位置编码的开篇之作《Self-Attention with Relative Position Representations》的做法是，如下式，分别在 $a_{ij}$ 上加入可训练的 $R_{ij}^K$ ，在 $z_i$ 上加入可训练的 $R_{ij}^V$ 。此外，由于对较远位置的准确性要求较低，就将其截断 $c l i p (j - i, k)$ 。
$\begin{aligned} a_{ij} &= softmax[\frac{(x_i W^Q)(x_j W^K+R_{ij}^K)^T}{\sqrt{d_k}}] \\ z_{i}&=\sum_{j=1}^n {a_{ij}(x_j W^V+R_{ij}^V)} \end{aligned}$

mT5的相对位置编码的做法是，如下式，在 $a_{ij}$ 上加入可训练的 $R_{ij}^K$ ， $z_i$ 保持不变。
$\begin{aligned} a_{ij} &= softmax[\frac{(x_i W^Q)(x_j W^K)^T+R_{ij}^K}{\sqrt{d_k}}] \\ z_{i}&=\sum_{j=1}^n {a_{ij}(x_j W^V)} \end{aligned}$

所以，mT5第一个block的self-attention计算中，直接把relative_position_bias加在score上，代码如下。

# compute attention scores
scores = torch.matmul(query_states, key_states.transpose(3, 2))
position_bias = self.compute_bias(real_seq_length, key_length) 
scores += position_bias  # (batch_size, n_heads, seq_length, key_length)

position_bias是如何计算的呢？这个计算过程是比较特别的。在计算当前token和目标token的attention值时，记录两个token的距离的绝对值，我们不直接使用这个距离值，而是根据距离值的大小进行一定程度的缩小，距离值越大缩小倍数越大，距离值越小缩小倍数越小。具体实现时，采用一种bucket"分桶"的方法，即对于临近距离应分到不同的桶中，分别进行精细编码；对于稍远距离应分到同一个桶中，共用一个编码；对于更远距离则共用范围更大一些；对于超出限定距离则clip截断。

细节二. 无均值的归一化

mT5的layer norm计算不同于常规layer norm，省去了均值。我们先看常规的layer norm计算：
$out=\frac{x-mean[x, axis]}{\sqrt{Var[x, axis]}+\epsilon} \times \gamma+\beta$

mT5的layer norm省去了"减均值"这一步，计算如下：
$out=\frac{x}{\sqrt{Var[x, axis]+\epsilon}} \times \gamma$

细节三. 无dk的注意力得分

此外mT5有一个细节，计算self-Attention score时，省去了"除以 $d_k$ "这一步。我们先看常规的self-Attention score计算：

$a_{ij} = softmax(\frac{QK^T}{\sqrt{d_k}})$

而mT5的self-Attention score计算如下：
$a_{ij} = softmax(QK^T)$

细节四. Dropout策略

mT5在预训练阶段，完全不使用Dropout；在微调阶段，才使用Dropout。

细节五. 无bias且采用GLU的全连接层

mT5的FFN层的激活函数采用“门控线性单元GLU”，并且没有bias项。我们先来看常规的以ReLU为激活函数的FFN层：

$FFN(x)=ReLU(xW_1+b_1)W_2+b_2$

mT5的FFN层则改为：

$FFN(x)=(GeLU(xW_1)\otimes xW_2)W_3$

FFN层增加了50%参数，从论文实验看效果明显增加。

细节六. Softmax层与Embedding层不共享参数

mT5的Embedding层参数共享，即Encoder与Decoder共享同一个Embedding矩阵。但是mT5的Softmax层与Embedding不共享参数，即Softmax层采用独立的Embedding矩阵。这样一来，参数量大大增加，但从实验结果来看效果更好。

1.2 有监督/无监督预训练任务

mT5的预训练任务很多，有无监督预训练，也有有监督预训练。它们的共性是，完全采用生成式。下面分别介绍：

(1) 无监督预训练
mT5最有效的无监督任务是采用BERT的MLM任务，也就是补齐句子中被mask的词。不过，mT5把语料构造为Seq2seq生成式的形式。

输入：明月几时有，[M0]问青天，不知[M1]，今夕是何年？

输出：[M0]把酒[M1]天上宫阙

(2) 有监督预训练
mT5采用多种NLP任务语料，以Seq2seq的形式，构造了多个有监督预训练任务，例如下图中的机器翻译、语言可接受度、相似度匹配、自动摘要，还有阅读理解、情感分类、主题分类、完形填空等等。

样本以任务描述文字开头，也就是提示(Prompt)，然后才是样本内容，例如下图中的"translate English to German:"，告知模型把这段英文文本翻译成德语文本。

mT5尝试在预训练阶段只做无监督任务，去掉有监督任务，从实验结果来看效果依然出色。

此外，要注意的是，由于架构差异，使用mT5 finetuen时，学习率应比BERT大10倍，即5e-4，BERT的学习率通常为5e-5。

2. T5-Pegasus

接下来，介绍T5-Pegasus。

以mT5为基础架构和初始权重，结合中文的特点对Tokenizer作了修改，在中文语料上使用PEGASUS式的伪摘要预训练任务，最终训练得到新的T5模型，即T5-Pegasus。

2.1 新的Tokenizer与更小的词表

mT5使用的Tokenizer是sentencepiece，支持词粒度。虽然中文词不多，但是相比字粒度有提升。

sentencepiece是一个C++编写的分词库，高效轻便，但对中文并不友好，例如，将全角字符强制转换为半角字符。

为此，T5-Pegasus的Tokenizer换为了BERT的Tokenizer，并与jieba分词相结合，实现分词功能。具体地，先用jieba分词，如果当前词在词表vocab.txt中，就用jieba分词的结果；如果当前词不在词表vocab.txt中，再改用BERT的Tokenizer。

mT5的词表大小为25w，涵盖101种语言，其中大量词是无用的（对中文任务而言）。并且由于mT5的Softmax层与Embedding层不共享参数，mT5 small的参数量为3亿，其中Embedding相关的就占了2.5亿，占用了高额显存。

为此，T5-Pegasus的两个Embedding矩阵中，只保留了中文任务的常用token。具体地，从jieba词表的前20w个高频词中，选取了在预训练语料中出现频次最高的5w个词，并将其作为词表vocab.txt。

2.2 伪摘要式预训练任务

伪摘要式预训练任务来自Pegasus一文《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization》，即选取正文ci中与其他句子重合率最高（最长公共子序列）的m个句子，作为摘要，从而构建可用于训练的摘要语料。

详细地，如下图伪代码所示，初始状态下的标题/标签ti为空，从正文与标题/标签的差集si=ci - ti中选一个句子，这个句子使得差集si和此刻的标题/标签ti的Rouge-F1得分最高，将其并入候选标题/标签ti中，并重复上述步骤m次，得到包含m个句子的标题/标签ti。

3. 中文摘要生成实践

为了深入理解T5模型的底层逻辑，笔者阅读了Transformers的T5模型源代码，将其撰写为博文《MT5ForConditionalGeneration生成模型的推理细节，源码阅读》，欢迎各位读者阅读和提问，并留下宝贵意见。

笔者将T5-Pegasus的finetune与推理代码（Pytorch版）上传至Github库链接，欢迎start和Issue。

此外，笔者在此基础上，实现了T5-Pegasus的模型量化、模型剪裁、模型蒸馏，将在后续文章中详细介绍，并在Github中开源代码，欢迎关注。

Reference:

[1] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
[2] mT5: A massively multilingual pre-trained text-to-text transformer
[3] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
[4] 那个屠榜的T5模型，现在可以在中文上玩玩了
[5] T5 PEGASUS：开源一个中文生成式预训练模型
[6] Self-Attention with Relative Position Representations

你可能感兴趣的:(自然语言处理NLP,语言模型,transformer,pytorch,nlp,自然语言处理)

深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
Java使用documents4j将word和excel转pdf 药岩工作中的那些问题 java word excel
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3<dependency
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
借助antd-design-x-vue实现接入通义千问大语言模型的对话功能（附源码）
说在前面现在大模型如此火热，想必你跟我也有同样的想法，实现一个自己的AI对话框，相比Dify等组件分享出来的对话框，自己实现起来可以更加灵活和适应需求。虽然Element,Antd都发布了各自的对话框组件，我说句实话，这个理解起来真没之前那种Button,Card这些组件来的简单，下面分享我的一个小Demo。功能拆解首先，官方帮我们实现了一个小的原型，附带了几乎所有的功能，地址如下：ant-des
多模态大语言模型arxiv论文略读（145）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
ReasoningLimitationsofMultimodalLargeLanguageModels.AcasestudyofBongardProblems➡️论文标题：ReasoningLimitationsofMultimodalLargeLanguageModels.AcasestudyofBongardProblems➡️论文作者：MikołajMałkiński,SzymonPawlo
多模态大语言模型arxiv论文略读（138）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记深度学习
UnderstandingtheRoleofLLMsinMultimodalEvaluationBenchmarks➡️论文标题：UnderstandingtheRoleofLLMsinMultimodalEvaluationBenchmarks➡️论文作者：BotianJiang,LeiLi,XiaonanLi,ZhaoweiLi,XiachongFeng,LingpengKong,QiLiu,
微调大语言模型后，如何评估效果？一文讲清茫茫人海一粒沙人工智能
在做大语言模型（LLM）微调时，“怎么判断模型调得好不好”是必须回答的问题。无论是在研究、项目落地，还是面试中，评估方法都不能停留在“训练loss降了”这么简单。本文从评估目标、技术指标、业务适配、实战建议四个维度，讲清楚微调后的模型评估怎么做，为什么这么做。一，评估前，先搞清楚目标不同的微调目的，评估方式也不同：✅精调任务能力：判断模型是否更好完成分类、问答、摘要、代码生成等任务。✅领域适应：关
多模态大语言模型arxiv论文略读（140）
SemiHVision:EnhancingMedicalMultimodalModelswithaSemi-HumanAnnotatedDatasetandFine-TunedInstructionGeneration➡️论文标题：SemiHVision:EnhancingMedicalMultimodalModelswithaSemi-HumanAnnotatedDatasetandFine-T
本地运行大型语言模型(LLM)的实践指南 yunwu12777 语言模型人工智能自然语言处理
技术背景介绍近年来，项目如llama.cpp、Ollama、GPT4All等的流行标志着在本地设备上运行大型语言模型（LLM）的需求日益增长。选择在本地运行LLM，至少有两个重要的好处：隐私和成本。隐私上，数据不需要发送到第三方，避免了商业服务条款的限制；成本方面，无需支付推理费用，尤其是对于那些需要大量计算的应用，如长时间的模拟和总结。核心原理解析在本地运行LLM，需要准备以下几个条件：开源LL
构建私有视觉搜索应用：多模态大模型的应用实例 2301_80727036 自然语言处理
在当今的科技时代，视觉搜索功能已经不再是新鲜事物，许多智能手机用户都可以通过自然语言搜索照片。随着开源多模态大型语言模型（Multi-modalLLMs）的兴起，我们现在可以为自己构建这种视觉搜索应用，用于管理自己的私人照片收藏。本教程将向您展示如何通过代码示例，使用开源多模态LLM构建私有视觉搜索和问答系统。技术背景介绍多模态大模型结合了文本和图像处理能力，使得我们可以开发更智能的应用程序。通过
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError:Using`low_cpu_mem_usage=True`ora`device_map`requiresAccelerate:`pipinstallaccelerate`pipinst
当语言模型”思考”时，它真的在推理吗？ qq_502428990 语言模型人工智能自然语言处理
最近，每当我看到ChatGPT一步步”推导”数学题，或是Claude条理分明地分析哲学问题时，总忍不住想起图灵测试那个古老的命题：我们是否又一次被表象迷惑了？这些看似严谨的推理过程，到底是一场精妙的模仿秀，还是真正智能的曙光？1.被误解的”思考者”走进任何科技论坛，你都能看到人们对GPT-4解题过程的惊叹：”看这一步一步的推导，它简直像人类一样在思考！”但作为一个长期观察语言模型的研究者，我不得不
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
【LangChain】langchain.chains.create_sql_query_chain() 函数：基于自然语言生成 SQL 查询的链（Chain）彬彬侠 LangChain langchain chains create_sql_quer sql_database sql
langchain.chains.create_sql_query_chain函数是LangChain库中的一个函数，用于创建基于自然语言生成SQL查询的链（Chain），结合语言模型（LLM）和数据库上下文生成可执行的SQL语句。本文基于LangChain0.3.x，详细介绍create_sql_query_chain的定义、参数、方法和典型场景，并提供一个独立示例，展示如何使用create_s
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他