AXiao96

Seq2Seq原理及实现

引言

听说以后公司那边用 Tensorflow，最近就转回 Tensorflow学习一下，发现很久以前 Tensorflow 把 seq2seq 的接口又重新升级了一下，也加了一些功能，变成了一个物美价廉的全家桶（tf.contrib.seq2seq）。所以来感受一下，顺便做个记录

除了最基本的 Seq2Seq 模型搭建之外，主要是对全家桶接口里的 Teacher Forcing，Attention，Beam Search，Sequence Loss 这样一些比较实用的配件（其实也不算配件，已经是现在 seq2seq 模型的基本要求了）做了一下研究，顺手实践了一下

另外，又在不使用 Tensorflow 提供的的 Seq2Seq 接口的情况下用手实现了一下这些功能，体会一下区别

源代码

https://github.com/wavewangyue/tensorflow_seq2seqgithub.com

一共4个代码文件：
model_seq2seq_contrib.py：用全家桶实现的 seq2seq 模型
model_seq2seq.py：不用全家桶手写的 seq2seq 模型
train_seq2seq.py：模型训练代码
infer_seq2seq.py：模型测试代码

还是先上结论

tensorflow 所提供的这个 seq2seq 全家桶功能还是很强大，很多比如 Beam Search 这些实现起来需要弯弯绕绕写一大段，很麻烦的事情，直接调个接口，一句话就能用，省时省力，很nice

优点就是封装的很猛，简单看一眼文档，没有教程也能拿过来用。缺点就是封装的太猛了，太傻瓜式了，特别是像 Attention 这类比较重要的东西，一封起来就看不到数据具体是怎么流动的，会让用户失去很多对模型的理解力，可控性也减少了很多，比如我现在还没发现怎么输出 attention score（。。[尴尬捂脸]，如果有知道的请教我一下，感激不尽）

感谢评论区 @ Towser 提供，将封装在 AttentionWrapper 中的 attention score 输出的方法可以参考这个 github 代码，具体在inference_attention_matrices=greedy_final_state.alignment_history.stack(name="inference_attention_matrix") 那一行

https://github.com/soloice/tf-tutorial/blob/master/src/att_seq2seq_delete_and_copy.pygithub.com

有得必有失，想要简便快捷拿过来就用使用，不想花时间去学习原理再去一行行码字，就要失去一些对模型的控制力和理解，正常。总的来说这个全家桶还是很好用，很强大，给了不熟练 Tensorflow 或不熟悉 seq2seq 的玩家一个 3 分钟上手 30 分钟上天的机会。但是使用的同时最好了解一下原理，毕竟如果真的把深度学习变成了简单的调包游戏，那这游戏以后很难上分啊

上一句话写给能看到的人，也写给我自己

正文

0. 先说 Seq2Seq

Seq2Seq 模型顾名思义，输入一个序列，用一个 RNN （Encoder）编码成一个向量 u，再用另一个 RNN （Decoder）解码成一个序列输出，且输出序列的长度是可变的。用途很广，机器翻译，自动摘要，对话系统，还有上一篇文章里我用来做多跳问题的问答，只要是序列对序列的问题都能来搞，功能很强大，效果也不错

一个最基本的 seq2seq 代码写起来也很简单，无论是用 Tensorflow 还是 Pytorch，比如：

import tensorflow as tf

class Seq2seq(object):
    def __init__(self, config, w2i_target):
        self.seq_inputs = tf.placeholder(shape=(config.batch_size, None), dtype=tf.int32, name='seq_inputs')
	self.seq_inputs_length = tf.placeholder(shape=(config.batch_size,), dtype=tf.int32, name='seq_inputs_length')
	self.seq_targets = tf.placeholder(shape=(config.batch_size, None), dtype=tf.int32, name='seq_targets')
	self.seq_targets_length = tf.placeholder(shape=(config.batch_size,), dtype=tf.int32, name='seq_targets_length')
        
	with tf.variable_scope("encoder"):
		encoder_embedding = tf.Variable(tf.random_uniform([config.source_vocab_size, config.embedding_dim]), dtype=tf.float32, name='encoder_embedding')
		encoder_inputs_embedded = tf.nn.embedding_lookup(encoder_embedding, self.seq_inputs)
		encoder_cell = tf.nn.rnn_cell.GRUCell(config.hidden_dim)
		encoder_outputs, encoder_state = tf.nn.dynamic_rnn(cell=encoder_cell, inputs=encoder_inputs_embedded, sequence_length=self.seq_inputs_length, dtype=tf.float32, time_major=False)
	
	tokens_go = tf.ones([config.batch_size], dtype=tf.int32) * w2i_target["_GO"]
	decoder_inputs = tf.concat([tf.reshape(tokens_go,[-1,1]), self.seq_targets[:,:-1]], 1)

	with tf.variable_scope("decoder"):
		decoder_embedding = tf.Variable(tf.random_uniform([config.target_vocab_size, config.embedding_dim]), dtype=tf.float32, name='decoder_embedding')
		decoder_inputs_embedded = tf.nn.embedding_lookup(decoder_embedding, decoder_inputs)
		decoder_cell = tf.nn.rnn_cell.GRUCell(config.hidden_dim)
		decoder_outputs, decoder_state = tf.nn.dynamic_rnn(cell=decoder_cell, inputs=decoder_inputs_embedded, initial_state=encoder_state, sequence_length=self.seq_targets_length, dtype=tf.float32, time_major=False)

	decoder_logits = tf.layers.dense(decoder_outputs.rnn_output, config.target_vocab_size)
	self.out = tf.argmax(decoder_logits, 2)

这里就是定义两个 RNN，都是直接准备好输入序列用 dynamic_rnn 运行就可以，encoder rnn 的输入就是模型输入的单词序列，decoder rnn 的输入需要简单制作一下，就是把期望输出往后挪一下，然后前面加一个“_GO”的标记。就是如下图的样子

模型写完了，代码很简单，跑就完事了。

但是这只是个引子。正文这里才开始。

1. Teacher Forcing

相关的全家桶成员：TrainingHelper，GreedyEmbeddingHelper，BasicDecoder，dynamic_decode

上面的代码虽然简单粗暴，实际上已经使用了一种 Teacher Forcing 的策略。就是说在 decoder 阶段，正常情况下某个时刻的输入应该是上一时刻的输出，但是使用了 Teacher Forcing，不管模型上一个时刻的实际输出的是什么，哪怕输出错了，下一个时间片的输入总是上一个时间片的期望输出。把两个套路的图放一起就能看到区别

这样做是好的，因为：

防止上一时刻的错误传播到这一时刻，decode 出一个序列，要是第一个单词错了，整个序列就跑偏了，这个序列就没啥意义了，计算 loss 更新参数作用都很小了。用了 Teacher Forcing 可以阻断错误积累，斧正模型训练，加快参数收敛（我自己试了一下，用和不用 Teacher Forcing，训练时候的 loss 下降速度和最终结果真的差了不少）
这样就可以提前把 decoder 的整个输入序列提前准备好，直接放到 dynamic_rnn 函数就能出结果，实现起来简单方便

但是，有个最大的问题：模型训练好了，到了测试阶段，你是不能用 Teacher Forcing 的，因为测试阶段你是看不到期望的输出序列的，所以必须乖乖等着上一时刻输出一个单词，下一时刻才能确定该输入什么。不能提前把整个 decoder 的输入序列准备好，也就不能用 dynamic_rnn 函数了

咋整？这时就必须用 raw_rnn 函数，手动补充 loop_fn 循环，手动去写在 decoder rnn 的每一个时间片上，先把上一个时间片的输出向量映射到词表上，再找出概率最大的词，再用 embedding 矩阵映射成向量成为这一时刻的输入，还要判断这个序列是否结束了，结束了还要拿“_PAD”作为输入……，写出来差不多是这个样子：

（算了不放了，20多行太长了。总之很麻烦，感兴趣可以去源代码里的 model_seq2seq.py 看一下）

这时，全家桶可以非常轻松解决这个问题，放代码：

tokens_go = tf.ones([config.batch_size], dtype=tf.int32) * w2i_target["_GO"]
decoder_embedding = tf.Variable(tf.random_uniform([config.target_vocab_size, config.embedding_dim]), dtype=tf.float32, name='decoder_embedding')
decoder_cell = tf.nn.rnn_cell.GRUCell(config.hidden_dim)
if useTeacherForcing:
	decoder_inputs = tf.concat([tf.reshape(tokens_go,[-1,1]), self.seq_targets[:,:-1]], 1)
	helper =tf.contrib.seq2seq.TrainingHelper(tf.nn.embedding_lookup(decoder_embedding, decoder_inputs), self.seq_targets_length)
else:
	helper = tf.contrib.seq2seq.GreedyEmbeddingHelper(decoder_embedding, tokens_go, w2i_target["_EOS"])
decoder = tf.contrib.seq2seq.BasicDecoder(decoder_cell, helper, encoder_state, output_layer=tf.layers.Dense(config.target_vocab_size))
decoder_outputs, decoder_state, final_sequence_lengths = tf.contrib.seq2seq.dynamic_decode(decoder, maximum_iterations=tf.reduce_max(self.seq_targets_length))

这里就是用 helper 这个类来帮你自动地给 decoder rnn 的每个时刻提供不同的输入内容，用或不用 Teacher Forcing 的区别只在于将 helper 定义为 TrainingHelper 或是 GreedyEmbeddingHelper。 且这两种方式，从模型变量的角度看是没有区别的，只是数据的流动方式不同，也就是说，在实际应用中，可以在 train 阶段新建一个用 TrainingHelper 的模型，训练完了保存模型参数，在 test 阶段再新建另一个用 GreedyEmbeddingHelper 的模型，直接加载训练好的参数就可以用

dynamic_decode 函数类似于 dynamic_rnn，帮你自动执行 rnn 的循环，返回完整的输出序列

这样，本来手打实现需要二三十行的功能，调接口10行左右就写完了。另外还有一个神奇的地方，不知道是 tf.contrib.seq2seq 全家桶在实现的时候加了什么 trick，试验了一下总是比我自己写的seq2seq的loss收敛速度以及最终结果都要好一些，放个对比图

从这里也可以看到训练时使用 Teacher Forcing 可以提升训练速度与质量，但是也会产生一些过拟合的副作用等等，这里不多说了

2. Attention

相关的全家桶成员：AttentionWrapper，BahdanauAttention/LuongAttention

seq2seq 里 attention 的作用就不详细说了，直接放一个我看到过的最直观的一个图，图片来源写在图注里，侵删。

图片来源：CSDN上博主thriving_fcl的博客，https://blog.csdn.net/thriving_fcl/article/details/74853556

简单解释一下。跟之前基础 seq2seq 模型的区别，就是给 decoder 多提供了一个输入“c”。因为 encoder把很长的句子压缩只成了一个小向量“u”，decoder在解码的过程中没准走到哪一步就把“u”中的信息忘了，所以在decoder 解码序列的每一步中，都再把 encoder 的 outputs 拉过来让它回忆回忆。但是输入序列中每个单词对 decoder 在不同时刻输出单词时的帮助作用不一样，所以就需要提前计算一个 attention score 作为权重分配给每个单词，再将这些单词对应的 encoder output 带权加在一起，就变成了此刻 decoder 的另一个输入“c”

这个自己实现起来也挺简单的，但是全家桶提供了更为简单的使用方式，上代码：

decoder_cell = tf.nn.rnn_cell.GRUCell(config.hidden_dim)
if useAttention:
	attention_mechanism = tf.contrib.seq2seq.BahdanauAttention(num_units=config.hidden_dim, memory=encoder_outputs, memory_sequence_length=self.seq_inputs_length)
	# attention_mechanism = tf.contrib.seq2seq.LuongAttention(num_units=config.hidden_dim, memory=encoder_outputs, memory_sequence_length=self.seq_inputs_length)
	decoder_cell = tf.contrib.seq2seq.AttentionWrapper(decoder_cell, attention_mechanism)
	decoder_initial_state = decoder_cell.zero_state(batch_size=config.batch_size, dtype=tf.float32)
	decoder_initial_state = decoder_initial_state.clone(cell_state=encoder_state)

decoder = tf.contrib.seq2seq.BasicDecoder(decoder_cell, helper, decoder_initial_state, output_layer=tf.layers.Dense(config.target_vocab_size))
decoder_outputs, decoder_state, final_sequence_lengths = tf.contrib.seq2seq.dynamic_decode(decoder, maximum_iterations=tf.reduce_max(self.seq_targets_length))

直观上看就是把原来定义的最基础 GRU 单元（decoder_cell）外面套一个 AttentionWrapper，直接替换原来的 decoder_cell 就好，只有两个字，省事。全家桶提供了两种可选 attention 策略：BahdanauAttention 和 LuongAttention，具体区别不细说了，主要是 attention score 怎么计算以及“c”怎么结合到输入中的问题，实践上效果差异基本不大

但是还是想说，太省事了，太傻瓜式了，个人不太喜欢这种过度封装的感觉。毕竟 attention 其实是一个“听上去很屌，不明觉厉”，做起来发现“哦，原来就是这么回个事，naive”，所以推荐自己写 attention，其实照着上面那个图梳理下数据流通过程，挺简单的：

def attn(self, hidden, encoder_outputs):
	# hidden: B * D
	# encoder_outputs: B * S * D
	attn_weights = tf.matmul(encoder_outputs, tf.expand_dims(hidden, 2))
	# attn_weights: B * S * 1
	attn_weights = tf.nn.softmax(attn_weights, axis=1)
	context = tf.squeeze(tf.matmul(tf.transpose(encoder_outputs, [0,2,1]), attn_weights))
	# context: B * D
	return context
# ……
input = tf.cond(finished, lambda: tokens_eos_embedded, get_next_input)
if useAttention:
	input = tf.concat([input, self.attn(previous_state, encoder_outputs)], 1)
# ……

3. Beam Search

相关的全家桶成员：tile_batch，BeamSearchDecoder

嗨呀这个可是太厉害了。感觉这个是全家桶里性价比最高的一个功能了

先说 Beam Search。这是个只在 test 阶段有用的设定。之前基础的 seq2seq 版本在输出序列时，仅在每个时刻选择概率 top 1 的单词作为这个时刻的输出单词（相当于局部最优解），然后把这些词串起来得到最终输出序列。实际上就是贪心策略

但如果使用了 Beam Search，在每个时刻会选择 top K 的单词都作为这个时刻的输出，逐一作为下一时刻的输入参与下一时刻的预测，然后再从这 K*L（L为词表大小）个结果中选 top K 作为下个时刻的输出，以此类推。在最后一个时刻，选 top 1 作为最终输出。有点带剪枝的动态规划的意思

这个实现起来其实挺麻烦的，所以没有自己写代码实现这个（捂脸，逃课）

但是全家桶提供了一个非常省事的使用方式，放代码：

tokens_go = tf.ones([config.batch_size], dtype=tf.int32) * w2i_target["_GO"]
decoder_cell = tf.nn.rnn_cell.GRUCell(config.hidden_dim)

if useBeamSearch > 1:
	decoder_initial_state = tf.contrib.seq2seq.tile_batch(encoder_state, multiplier=useBeamSearch)	
	decoder = tf.contrib.seq2seq.BeamSearchDecoder(decoder_cell, decoder_embedding, tokens_go, w2i_target["_EOS"],  decoder_initial_state , beam_width=useBeamSearch, output_layer=tf.layers.Dense(config.target_vocab_size))
else:
	decoder_initial_state = encoder_state
	decoder = tf.contrib.seq2seq.BasicDecoder(decoder_cell, helper, decoder_initial_state, output_layer=tf.layers.Dense(config.target_vocab_size))
			
decoder_outputs, decoder_state, final_sequence_lengths = tf.contrib.seq2seq.dynamic_decode(decoder, maximum_iterations=tf.reduce_max(self.seq_targets_length))

这回就是把 decoder 从 BasicDecoder 换成 BeamSearchDecoder 就完事了，这封装的，流弊

因为使用了 Beam Search，所以 decoder 的输入形状需要做 K 倍的扩展，tile_batch 就是用来干这个。如果和之前的 AttentionWrapper 搭配使用的话，还需要把encoder_outputs 和 sequence_length 都用 tile_batch 做一下扩展，具体可以看代码，不细说了

4. Sequence Loss

相关的全家桶成员：sequence_loss

这个其实是一个 seq2seq 训练中不怎么值得一提但却比较重要的一个地方。放个图说。按照通常的 loss 计算方法，如图假设 batch size=4，max_seq_len=4，需要分别计算这 4*4 个位置上的 loss。但是实际上“_PAD”上的 loss 计算是没有用的，因为“_PAD”本身没有意义，也不指望 decoder 去输出这个字符，只是占位用的，计算 loss 反而带来副作用，影响参数的优化

所以需要在 loss 上乘一个 mask 矩阵，这个矩阵可以把“_PAD”位置上的 loss 筛掉。其实有了这个 sequence_mask 矩阵之后（tensorflow 提供的函数 tf.sequence_mask 可以直接生成），直接乘在 loss 矩阵上就完事了。所以全家桶里这个 sequence_loss 实际上并没有什么用处

还是放下代码：

sequence_mask = tf.sequence_mask(self.seq_targets_length, dtype=tf.float32)
self.loss = tf.contrib.seq2seq.sequence_loss(logits=decoder_logits, targets=self.seq_targets, weights=sequence_mask)

如果不用全家桶，写出来差不多是这样：

sequence_mask = tf.sequence_mask(self.seq_targets_length, dtype=tf.float32)
loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=decoder_logits, labels=self.seq_targets)		
self.loss = tf.reduce_mean(loss * sequence_mask)

二者并没有什么区别

总结

总结放在开头了

happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
AI 加持下的智能家居行业：变革、挑战与机遇低代码老李人工智能智能家居
在当今科技迅猛发展的浪潮中，人工智能（AI）已深深融入智能家居领域，成为推动其蓬勃发展的关键力量，为人们的生活带来了诸多便利和创新体验，同时也面临着一系列亟待解决的问题。一、AI驱动的智能家居功能升级（1）智能语音交互与控制智能语音助手作为智能家居的核心交互方式，借助自然语言处理（NLP）技术，让用户仅通过简单的语音指令，就能轻松操控家中各类智能设备，如精准控制灯光的开关与亮度调节、窗帘的开合、电
NLTK库全解析：用Python打开自然语言处理的第一把钥匙
引言你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（NaturalLanguageToolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然
Python 爬虫实战：微博话题讨论数趋势爬取与分析全流程西攻城狮北 python 爬虫开发语言
1.项目背景与目标微博话题（#话题#）是社交媒体舆情监测、品牌营销、热点追踪的重要数据源。本实战要完成以下目标：爬取指定话题在7天内的讨论数、阅读量、热搜排名等关键指标。将数据存入MySQL，并每日增量更新。用Pandas+Matplotlib绘制趋势图，直观呈现热度变化。基于SnowNLP做情感倾向分析，输出正面/负面占比。生成一份可分享的HTML可视化报告。2.环境搭建与依赖2.1安装核心库p
大语言模型应用指南：Gemini简介 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍自然语言处理（NLP）一直是人工智能领域的热门话题之一。在NLP中，语言模型是一个重要的概念，它可以用来预测下一个单词或字符的概率。近年来，随着深度学习技术的发展，大型语言模型的研究和应用也越来越受到关注。其中，Gemini是一种新型的大型语言模型，它在多项任务上取得了优异的表现。本文将介绍Gemini的核心概念、算法原理、数学模型和公式、项目实践、实际应用场景、工具和资源推荐、未来发
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
Day44
1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer、多模态4.预训练策略：数据增强、自监督/监督训练、模型微调、多模态学习作业1.importtorchimporttorch.nnasnnimporttorch.optima
Python, Rust 开发机关事业单位公文写作助手APP
#机关事业单位公文写作助手应用设计基于Python和Rust开发机关事业单位公文写作APP的方案如下：##系统架构设计```桌面端/Web应用(Tauri/Vue.js)|RESTAPI/WebSocket|Rust核心服务(Actix-web/Axum)←───PythonNLP服务(FastAPI)|公文要素提取/模板生成/智能校对PostgreSQL数据库|Redis缓存(模板缓存/会话管理
【大模型面试】大模型Prompt Engineer面试题及参考答案大模型知识 prompt 人工智能开发语言 python chatgpt 深度学习大模型
一、基础概念类1.什么是大模型？大模型通常指具有庞大参数规模的机器学习模型，尤其是在自然语言处理（NLP）和计算机视觉等领域。这些模型能够学习到大量数据中的复杂模式和特征，具备强大的泛化能力，可在多种任务上表现出色，如GPT系列、BERT等。2.大模型与传统机器学习模型的区别是什么？传统机器学习模型参数规模相对较小，往往针对特定任务进行设计和训练，需要较多人工特征工程。而大模型参数数量庞大，通过在
AI产品经理技术篇：AI领域常用术语解析让我看看好学吗人工智能产品经理机器学习深度学习学习
作为AI产品经理，深入理解人工智能领域的核心术语是高效沟通、需求定义和产品落地的关键。无论是与算法工程师协作优化模型，还是向业务方解释技术方案，准确掌握专业术语能显著提升决策效率，避免因概念混淆导致的开发偏差。本文系统梳理了模型与算法、NLP（自然语言处理）、CV（计算机视觉）、数据处理、核心评估指标等领域的核心术语，帮助产品经理快速构建AI技术认知框架。目录1.基础概念2.模型与算法3.自然语言
大模型微调到底有没有技术含量？ DeepSeek-大模型系统教程人工智能语言模型 ai 大模型大模型微调程序员 AI大模型
今天给大家带来知乎好友@ybq的一篇回答-大模型微调到底有没有技术含量，或者说技术含量到底有多大？老生常谈的一句话吧：有没有技术含量取决于这个工作你怎么做，尤其是llm方向，上手门槛相比传统NLP变得更低了。我举一些例子吧，针对大模型微调的几个重要环节，我列举的每一种做法大概率都能完成最终目标，甚至说训出来的模型效果都没什么差别。但对个人能力成长的帮助就大不相同了。数据工作做法1:继承实验室或者同
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
DAY 40 训练和测试的规范写法 acstdm python打卡60天人工智能深度学习机器学习
目录一、单通道图片的规范写法图像任务中的张量形状NLP任务中的张量形状1.Flatten操作2.view/reshape操作总结二、彩色图片的规范写法知识点回顾：彩色和灰度图片测试和训练的规范写法：封装在函数中展平操作：除第一个维度batchsize外全部展平dropout操作：训练阶段随机丢弃神经元，测试阶段eval模式关闭dropout昨天我们介绍了图像数据的格式以及模型定义的过程，发现和之前
SOTA是什么意思？有奇妙能力吗 AI 知识分享自然语言处理人工智能 ai
最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。而Transformer是BERT取得成功的一个关键因素。谷歌的Transformer模型最早用于机器翻译任务，当时达到了SOTA效果。那么文中的SOTA效果，SOTA结果是什么意思呢?这里就来简单介绍一下定义：SO
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
LoRA 实战指南：NLP 与 CV 场景的高效微调方法全解析 fairymt 产品经理的AI秘籍自然语言处理人工智能机器学习
大模型已成AI应用的“标配”，但高昂的训练和部署成本让很多企业望而却步。LoRA（Low-RankAdaptation）作为一种轻量级微调方案，正成为NLP与CV场景中低成本定制的利器。本文详细通过详细介绍LoRA的核心原理、在文本与图像任务中的应用场景、主流工具框架与实践方式，帮助你快速掌握这项高性价比技术。国产生态实战：基于LLaMA-Factory+DeepSeek+LoRA+FastAPI
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
飞算JavaAI 2.0.0深度测评：自然语言编程如何重构开发生产力？知识产权13937636601 计算机 Java
摘要2025年自然语言编程（NLPProgramming）迎来工业化拐点，飞算JavaAI2.0.0以语义理解精度＞92%、企业级代码生成通过率＞87%的核心能力，正在重构Java开发范式。本文通过电商、金融、工业物联网三大场景实测，揭秘其如何实现需求描述到可部署代码的端到端转化。数据显示：复杂业务模块开发效率提升3-8倍，逻辑缺陷率降低70%，同时提供语义级安全审计、架构腐化预警等独家能力，为传
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
ali PaddleNLP docker 大熊程序猿 AI大模型 docker 容器运维
一、添加文件nano /root/projects/paddlenlp_similarity_server.pyfromflaskimportFlask,request,jsonifyimportpaddlefrompaddlenlpimportTaskflowimportjsonimportuuidapp=Flask(__name__)#初始化文本相似度模型similarity=Taskflow
自然语言处理之文本生成：Recurrent Neural Networks (RNN)：序列模型与语言模型 zhubeibei168 自然语言处理自然语言处理 rnn 语言模型人工智能机器翻译生成对抗网络
自然语言处理之文本生成：RecurrentNeuralNetworks(RNN)：序列模型与语言模型自然语言处理简介NLP的基本概念自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域的一个重要分支&#
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要