Garry1248

生成式深度学习(第二版)-译文-第九章-Transformers (II)

… … 接上篇博文 (第九章-Transformers (I))

Transformer Block

一个Transformer Block是指Transformer 中应用了一些跳跃连接，前向(全连)层，以及围绕多头注意力层归一化的单个component。Transformer Block的一个框图如图9-6所示。

首先，注意 Query 是怎么传给多头注意力层以添加到输出 — 这是一个跳跃连接，在现代深度学习架构中很常见。这意味着我们可以构建非常深的神经网络而无需遭受梯度消失问题，因为跳跃连接提供了一个 gradient-free 的高速通路 (highway) 以无干扰的向前传输信息。

其次，在Transformer Block中应用了层归一化 (layer normalization), 从而为训练过程提供稳定性。在本书前面，我们已经看到了batch normalization，BN 中每个通道的输出均值为0，标准差为1。归一化统计是沿着 batch 和空间维度来计算的。

相反，Transformer Block中的层归一化通过(沿着通道计算归一化统计量)来实现对 batch中每个序列的每个位置进行归一化。这与batch normalization在计算归一化统计量上是完全相反的。两者的区别如下图9-7所示。

译者注: 关于两者差异的图，原书不是很直观，这里重新找了个更清晰的图。

Layer Normalization vs Batch Normalization
层归一化在原始的GPT论文中使用，通常用于基于文本的任务以避免产生沿着batch中序列的归一化依赖。然而，近期的一些工作(例如 Shen 等) 挑战了这一假设，并表明通过对batch normalization 做一些修改，BN也可以在Transformer中进行应用，超过了传统的层归一化。

最后，Transformer Block也包含了一组前向 (也即全连) 层，以允许 component 随着网络的加深提取高层次特征。

Transformer Block 的 Keras 实现如样例 9-4所示。

# Keras 中的TransformerBlock
class TransformerBlock(layers.Layer):
	# 组成TransformerBlock的子层在初始化函数中定义
    def __init__(self, num_heads, key_dim, embed_dim, ff_dim, dropout_rate=0.1): 
        super(TransformerBlock, self).__init__()
        self.num_heads = num_heads
        self.key_dim = key_dim
        self.embed_dim = embed_dim
        self.ff_dim = ff_dim
        self.dropout_rate = dropout_rate
        self.attn = layers.MultiHeadAttention(
            num_heads, key_dim, output_shape = embed_dim
        )
        self.dropout_1 = layers.Dropout(self.dropout_rate)
        self.ln_1 = layers.LayerNormalization(epsilon=1e-6)
        self.ffn_1 = layers.Dense(self.ff_dim, activation="relu")
        self.ffn_2 = layers.Dense(self.embed_dim)
        self.dropout_2 = layers.Dropout(self.dropout_rate)
        self.ln_2 = layers.LayerNormalization(epsilon=1e-6)

    def call(self, inputs):
        input_shape = tf.shape(inputs)
        batch_size = input_shape[0]
        seq_len = input_shape[1]
        # 创建因果掩膜帮助query遮掩未来的key
        causal_mask = causal_attention_mask(
            batch_size, seq_len, seq_len, tf.bool
        ) 
        # 使用注意力掩膜创建多头注意力层
        attention_output, attention_scores = self.attn(
            inputs,
            inputs,
            attention_mask=causal_mask,
            return_attention_scores=True
        ) 
        attention_output = self.dropout_1(attention_output)
        # 第一个 add + normalization 层
        out1 = self.ln_1(inputs + attention_output) 
        # 前向层
        ffn_1 = self.ffn_1(out1) 

        ffn_2 = self.ffn_2(ffn_1)
        ffn_output = self.dropout_2(ffn_2)
        # 第二个 add + normalization 层
        return (self.ln_2(out1 + ffn_output), attention_scores)

位置编码 (Positional Encoding)

在我们把所有东西放在一起来训练自己的GPT模型之前，还有最后一个步骤。你应该已经注意到在多头注意力层中，没有哪部分是关注 keys 的顺序的。每个 key 和 query 的点积计算是并行，而非如RNN中一样是序列的。这是一个优点(因为并行的效率增益)，但也是一个问题，因为我们明确的需要注意力层来预测下面两个句子的不同输出:

The dog looked at the boy and … (barked？)
- The boy looked at the dog and … (smiled？)

为了解决这一问题，在为最开始的Transformer Block创建输入时，我们使用了一项名为 位置编码 (positional encoding) 的技术。除了对每个token 使用 token 嵌入之外，我们还利用位置编码对token的位置进行编码。

token嵌入是使用标准嵌入层将每个token转换为一个学习到的向量来构建。我们可以用相同的方式来构建位置编码，使用一个标准嵌入层来把每个整数位置转换为一个学习到的向量。

小贴士
GPT使用嵌入层来嵌入位置，原始的Transformer论文则利用三角函数 — 在第11章中当我们探索音乐生成时，我们会介绍这个替代。

为了构建联合的 token-position 嵌入，如图9-8所示，我们把token嵌入加到 positional嵌入中。通过这种方式，句子中每个单词的意思和位置都在单一向量中得以捕获。

如下样例 9-5 所示，定义我们 TokenAndPositionEmbedding 层的代码如下样例 9-5 所示。

# TokenAndPositionEmbedding 层
class TokenAndPositionEmbedding(layers.Layer):
    def __init__(self, maxlen, vocab_size, embed_dim):
        super(TokenAndPositionEmbedding, self).__init__()
        self.maxlen = maxlen
        self.vocab_size =vocab_size
        self.embed_dim = embed_dim
        # tokens 使用 Embedding 层来嵌入
        self.token_emb = layers.Embedding(
            input_dim=vocab_size, output_dim=embed_dim
        ) 
        # tokens的位置也使用嵌入层嵌入
        self.pos_emb = layers.Embedding(input_dim=maxlen, output_dim=embed_dim) 

    def call(self, x):
        maxlen = tf.shape(x)[-1]
        positions = tf.range(start=0, limit=maxlen, delta=1)
        positions = self.pos_emb(positions)
        x = self.token_emb(x)
        # 层输出是 token 和 postion 嵌入之和
        return x + positions

训练GPT

现在，我们已经准备好来训练自己的GPT模型了！为了把所有的东西放到一起，我们需要把输入文本通过 token 和 position 嵌入层传输，然后通过我们的 Transformer Block。网络的最终输出是一个简单的带softmax激活函数的全连层，节点数等于词典的单词总数。

小贴士
简单起见，我们仅仅使用一个 Transformer Block，而非原始论文中的12个。

整个架构如图9-9 所示，等价code在样例9-6中提供。

# 样例9-6 Keras中的一个GPT模型
MAX_LEN = 80
VOCAB_SIZE = 10000
EMBEDDING_DIM = 256
N_HEADS = 2
KEY_DIM = 256
FEED_FORWARD_DIM = 256

# input 用0补齐
inputs = layers.Input(shape=(None,), dtype=tf.int32) 
# 文本用 TokenAndPositionEmbedding 层编码
x = TokenAndPositionEmbedding(MAX_LEN, VOCAB_SIZE, EMBEDDING_DIM)(inputs) 
# 嵌入传入一个 TransformerBlock
x, attention_scores = TransformerBlock(
    N_HEADS, KEY_DIM, EMBEDDING_DIM, FEED_FORWARD_DIM
)(x) 
# 变换后的输出传入一个带 softmax 的全连层，以预测下一个词的分布
outputs = layers.Dense(VOCAB_SIZE, activation = 'softmax')(x) 
# Model接收词tokens的序列作为输入，并输出预测的后续词分布。Transformer Block的输出也返回以确保我们可以检查模型如何施加注意力。
gpt = models.Model(inputs=inputs, outputs=[outputs, attention]) 
# 模型在预测词分布上使用 SparseCategoricalCrossentropy 损失编译
gpt.compile("adam", loss=[losses.SparseCategoricalCrossentropy(), None]) 
gpt.fit(train_ds, epochs=5)

分析GPT

既然我们已经编译并训练了自己的GPT模型，我们可以开始用它来生成长的文本字符串。我们可以审视 TransformerBlock输出的注意力权重，以理解Transformer在生成过程的不同点上到底从哪里寻找信息。

生成文本

我们可以使用下面的过程生成新的文本：

将一组已有的词序列喂给网络，让它来预测下一个单词。
把预测的单词添加到已有序列并重复。

网络将为我们可以采样的每个单词输出一组概率，因此我们可以使得文本生成过程随机，而非确定。

我们将使用第五章中为LSTM文本生成引入的相同TextGenerator类，包括温度参数来指定我们希望采样的过程有确定。让我们看看两个不同温度值下的过程，如图9-10所示。

这两个段落有几个事情值得注意。首先，两者都和原始训练集中的酒评风格类似。它们都是以区域和酒的品类开始，在整个段落中酒的品类保持一致 (例如，它没有突然改变酒的颜色)。如我们在第五章中所见，以温度 1.0 生成的文本更加毛线，因而相较于温度为0.5的文本精确度更低。使用温度1.0生成多个样本将导致更多的发散性，因为模型是从具有更大方差的概率分布采样得到。

查看注意力分数

我们也可以让模型来告诉我们它在预测句子中下一个词时赋予每个单词的权重。TransformerBlock为每个注意力头输出了注意力权重，该权重是句子中前序词的 softmax 分布。

为了展示这点，针对三个不同输入提示词，图9-11 展示了最高概率的前五个tokens，以及在两个注意力头上对每个前序词的平均注意力。前序词根据(两个注意力头上平均得到的)注意力分数使用不同着色。更深的蓝色意味着在该词上倾注了更强的注意力。

在第一个例子中，模型为了决定区域相关的单词在国家(Germany)上倾注了更多注意力。这完全合理！为了选定一个区域，我们需要从国家相关的词语上抽取更多信息，以此来确保二者匹配。我们无需在头两个tokens (wine review) 上关注太多，因为它们不包含任何跟区域相关的有用信息。

在第二个例子中，我们需要回溯到葡萄 (resling)，因此我们需要更多关注第一次提到它的地方。无论在整个句子中需要回溯多远 (上限为80个单词)，我们都可以直接从这个词拉取信息。注意这与RNN网络非常不同，RNN依赖一个隐状态以维护整个序列的所有有用信息使得在需要时可以被随时拉起 — 这实际上是个更低效的方法。

最终的序列展示了我们的GPT模型如何基于信息聚合选取合适形容词的一个例子。这里注意力是关于葡萄的(riesling)，但同时也依赖于包含残余糖分(residual sugar) 这个事实。因为 Riesling 一般是甜酒，同时也提到了糖分，因此，我们更可能把它形容为 slightly sweet 而非 slightly earthy。

对于充分理解模型如何抽取信息以对于精准预测下一个单词来说，能够如此审视一个网络无疑信息量巨大，我非常推荐你试试输入提示词，看看你的模型是否可以关注到句子中真正远的那些词，这样可以帮助你了解基于注意力模型相对于传统循环模型的能力优势。

其它Transformers

我们的GPT模型是解码器 Transformer — 它以每次生成一个token的方式生成文本字符串，并使用因果掩膜来只关注输入字符串中的前序词。当然也存在编码器Transformer, 它并不会使用因果掩膜 — 相反，它们关注整个输入字符串以抽取输入的有意义上下文表示。对于其他任务，例如语言翻译，也存在 编码器-解码器 Transformer，它能够将一个文本字符串翻译到另一个。这种类型的模型既包含编码器Transformer Blocks，也包含解码器Transformer Blocks。

表9-1总结了三类不同的Transformers，其中包含了每个架构和典型用例的最优样例。

类型	样例	用例
编码器	BERT(谷歌)	句子分类，命名实体识别，抽取性问答
解码器-解码器	T5(谷歌)	文本摘要，翻译，问答
解码器	GPT(OpenAI)	文本生成

编码器Transformer的一个知名例子是基于Transformer的双向编码器表示 (Bidirectional Encoder Representations from Transformers, BERT) 模型，由谷歌开发(Devlin等，2018年)，以在所有层给定缺失词前后上下文时来预测句子中的缺失单词。

编码器Transformers
编码器Transformers一般用于需要把输入作为整体进行理解的任务，例如句子分类，命名实体识别，以及抽取性问答。它们不用于文本生成任务，因此我们在本书中不会在细节上对其进行讨论 — 感兴趣的话可以参考 Lewis Tunstall 等的 Natural Language Processing with Transformers (O’Reilly出版社) 获取更多信息。

在下面的章节里，我们将探索编码器-解码器transformers如何工作，并讨论OpenAI对原始GPT模型架构的拓展，包括专门为对话应用设计的ChatGPT。

T5

现代transformer中一个使用编码器-解码器结构的例子是谷歌公司开发的 T5 模型。该模型将一些列任务重构为文本-到-文本框架，包括翻译，语言可接受性，句子相似度，以及文本摘要，如图9-12所示。

T5模型架构与原始transformer论文中的编码器-解码器架构非常匹配，如图9-13所示。关键的差异在于： T5是在750GB 的巨量文本语料（the Colossal Clean Crawled Corpus, C4）上训练 , 而原始transformer论文仅仅只关注语言翻译，因此它只是在1.4GB的英语-德语句对上进行训练。

该框图的大部分我们都很熟悉 — 我们可以看到重复的 Transformer Blocks 以及用于捕获输入序列次序的位置编码。该模型和本章前文我们构建的GPT模型之两个关键差异在于:

左手边，一组编码器 Transformer blocks 对要翻译的句子进行编码。注意在注意力层上并没有用因果掩膜。这是因为我们不是去生成更多文本来扩展要翻译的句子。我们只是希望能学到句子整体的一个好的表示以喂给解码器。因此，编码器中的注意力层可以是完全无掩码的，以捕获词句之间的互依赖性，无论顺序如何。
右手边，一组解码器Transformer Blocks生成翻译文本。初始的注意力才能够是自参考的 (self referential, 也即，key，value, query 均来自同一个输入)，并且使用了因果掩膜以确保来自未来tokens的信息不会泄露给当前要预测的单词。无论如何，我们可以看到后续注意力层从编码器中拉取key 和 value，只剩下query从解码器本身产生。这被称为互参考注意力 (cross-referential attention)，这意味着加码器可以关注待翻译输入序列的编码器表达。这是解码器获知翻译需要传达意义的方式。

图 9-14 展示了一个互参考注意力的样例。解码器层的两个注意力头可以协同工作以提供单词 the 在 street上下文中使用时的正确德语翻译。在德语中，依据名词性别，有三个确定的定冠词(der, die, das), 但是transformer知道选择die，因为一个注意力头可以关注到词语 street (德语中是女性化的词)，另一个注意力头关注到需要翻译的词 (the)。

小贴士
该示例来自 Tensor2Tensor Github repository, ，它包含了一个 Colab Notebook，允许你摆弄一个训练好的编码器-解码器Transformer模型，并且查看编码器和解码器的注意力机制是如何影响一个给定句子翻译到德语。

GPT-3 和 GPT-4

自2018年原始的GPT论文发表以来，OpenAI在原模型基础上发布了多个更新版本，如表9-2所示。

模型	日期	层数	注意力头	词嵌入尺寸
GPT	2018年6月	12	12	768
GPT-2	2019年2月	48	48	1600
GPT-3	2020年5月	96	96	12888
GPT-4	2023年3月	-	-	-

GPT-3的模型架构与原始的GPT模型相似，只是它更大，并且在更多数据上训练。在写作本书时，GPT-4还处在beta版本 — OpenAI尚未公开模型结构和尺寸的细节，尽管我们知道它可以接收图像作为输入，因而肯定是GPT系列的第一个多模态模型。经模型可通过商业工具和API调用，但GPT-3和GPT-4的模型权重并不开源。

GPT-3也可以基于你自己的训练数据精调— 这允许你提供多个样本来教它通过更新网络的权重来学会面对特定风格的提示词如何响应。在很多情况下这并不需要，因为GPT-3也可以通过在提示词本身提供几个样例(这被称为 few-shot learning) 来学会如何对特定风格的提示词做出反应。精调的有点是，你不再需要在每个特定的提示词输入中提供这些样例了，能够有效减少长期运行的代价。

给定一个系统提示词句子，GPT-3模型输出的一个示例如下图9-15所示。

像GPT这样的语言模型从规模上获益巨大 — 既包括模型权重的数目，也包括数据库规模。语言模型能力的天花板远未达到，因此研究者们正在用更大模型和数据集不断推进其能力边界。

ChatGPT

在GPT-4 beta版本发布之前数月，OpenAI官宣了 ChatGPT — 这是一个允许用户以对话接口与大语言模型交互的工具。2022年11月的原始发布基于 GPT-3.5，这是一个比GPT-3更强大的模型，并且面向对话响应做了精调。

一个对话的示例如下图 9-16所示。注意智能体是如何维护输入间的状态，理解第二个问题中提到的注意力指的是 Transformers上下文中的注意力，而非人类关注的能力。

在本书写作时，并没有官方的论文在细节上描述ChatGPT是如何工作的，但是从
中我们知道它使用了一种称为"基于人类反馈的强化学习(RLHF)"技术来精调GPT-3.5模型。这一技术之前曾在ChatGP项目组介绍InstructGPT模型的论文中使用过，这是一个精调的GPT-3模型，准们为更精准执行手写指令的目的设计。

ChatGPT的训练过程如下:

有监督精调(SFT): 收集对话输入(prompts)数据集以及由人工书写的期待输出。这用于用监督学习的方式精调底层语言模型(GPT-3.5)。
奖励建模(Reward Modeling): 给人工标注者看提示词样例以及一些采样的模型输出，并让标注者将输出按最好到最差进行排序。在考虑对话历史的基础上，训练一个奖励模型来预测每个输出的分数。
强化学习 (Reinforment learning): 将对话看做一个强化学习环境，其中策略是对应的语言模型，按照第1步中的精调模型进行初始化。给定一个当前状态(对话历史)，策略输出一个动作(tokens序列)，其又第2步中训练的奖励模型打分。一个强化学习算法 — proximal policy optimization (PPO) — 通过调整语言模型的权重进行训练以最大化奖励。

强化学习
强化学习的介绍我们将在第12章谈及，我们将探索生成式模型如何在强化学习的设定下使用。

RLHF过程如下图9-17所示。

尽管ChatGPT还有诸多限制(例如优势会幻想事实上错误的信息)，它仍然是一个强有力的范例，它展示了如何利用Transformers构建生成式模型来产生复杂的，长时间跨度的，与人工生成文本难以区分的新输出。像ChatGPT这类模型目前取得的进展是AI潜力和其对世界变革性影响的有力证明。

进一步的，AI驱动的交流和交互将在未来得到持续演进。像Visual ChatGPT这样的技术正在把ChatGPT的语言能力和Stable Diffusion这样的视觉基础模型结合起来，使得用户不仅可以通过文本与ChatGPT交流，还可以通过图像。语言和视觉能力在Visual ChatGPT和GPT-4这样项目中的融合将有望开启人机交互的新纪元。

本章小结

本章中，我们探索了Transformer模型架构并构建了一个GPT版本 — 一个经典的文本生成模型。

GPT使用了一种称为注意力的机制，它移除了循环层的限制(如LSTMs)。在工作机理上，它有点像信息检索系统，它利用了queries，keys，和 values 来决定它想要从每个输入token上提取多少信息。

注意力头可以聚合起来形成多头注意力层。这些都封装在Transformer Block里，其包含层归一化，围绕注意力层的跳跃连接。Transformer Blocks可以堆叠起来创建极深的神经网络。

因果掩膜用于确保GPT不会泄露下游tokens的信息到当前的预测。另外，一种名为位置编码的技术被用以确保输入句子的次序信息不被丢弃，而是像传统的词嵌入一样融合进输入。

当分析GPT的输出时，我们看到它不仅有可能生成新的文本段落，也有可能审视网络的注意力层对于句子中哪里能够聚合信息以提升预测的理解。GPT可以在无信号损失的情况下获取远距离信息，因为注意力分数是并行计算的，并不像RNN那样依赖于一个序列计算的隐状态。

我们看到有三类Transformers (编码器，解码器，编码器-解码器) 以及各自能够完成的不同任务。最后，我们探索了其他语言模型如谷歌T5和OpenAI ChatGPT的解构和训练过程。

大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
关于AIGC降重方法的总结 hjehheje AIGC
在当下信息如潮水般涌来的内容创作世界里，“小狗伪原创”这个独特的存在，犹如一颗投入平静湖面的石子，激起了层层涟漪。那么，小狗伪原创到底处于何种档次呢？这一问题如同神秘的宝藏，亟待我们去探索和剖析。一、小狗伪原创的定义小狗伪原创，说白了，就是借助特定手段，对原始内容进行一番“乔装打扮”。它对原文的语句结构进行巧妙变换，词汇也被替换成看似不同实则相近的表述，可其骨子里的核心思想以及大部分内容，依旧深深
维普AIGC降重方法有哪些？ hjehheje AIGC
在学术写作和论文创作中，重复率过高是许多人面临的一大难题。随着科技的发展，维普AIGC为我们提供了一系列有效的降重方法。那么，维普AIGC降重方法有哪些呢？接下来就为大家详细介绍。语义理解与改写维普AIGC具备强大的语义理解能力。例如，当我们面对一段论述市场趋势的文字时，它能精准把握核心含义。假设原文是“当前智能手机市场呈现出快速增长的趋势，消费者对高性能手机的需求日益旺盛”，维普AIGC可能会将
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
测试模板：Showcase规范和流程 iBigder 小测试管理软件测试全套常用模板测试管理
【测试资料】https://fzqxk86ywz.feishu.cn/share/base/view/shrcnp65x91aNEkF2REnU2VcmmH【AIGC和小红书】https://fzqxk86ywz.feishu.cn/sheets/GugIsI9zKhNaEwtJscbcgKFCn6bFiddler成功汉化完整过程和汉化补丁下载：https://zhuanlan.zhihu.com
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc