onlyfansnft.art

GPT-2 面试题

简介

1、GPT-2 是什么？它是基于什么模型的？

GPT-2 是一种人工智能的大型语言模型，由 OpenAI 在2019年提出²。它是基于变压器（Transformer）模型的，使用了自注意力（Self-Attention）机制来处理文本序列。GPT-2 的目标是生成与人类语言相似的文本，它可以用于翻译、问答、摘要等多种任务。GPT-2 的特点是它只使用了无监督的预训练阶段，没有使用有监督的微调阶段，也就是说它不需要针对特定任务的标注数据。GPT-2 的模型参数有15亿个，是 GPT-1 的十倍，它的训练数据集也是一个名为 WebText 的新数据集，包含了数百万网页的文本。

Source: Conversation with Bing, 2023/5/13
(1) GPT-2 - Wikipedia. https://en.wikipedia.org/wiki/GPT-2.
(2) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(3) 一招鉴别真假ChatGPT，并简要介绍ChatGPT、GPT、GPT2 … https://blog.csdn.net/suiyingy/article/details/129106431.
(4) GPT-2 Explained | Papers With Code. https://paperswithcode.com/method/gpt-2.

2、GPT-2 的主要特点和优势是什么？

它是一个大型的语言模型，使用了变压器（Transformer）模型的解码器部分，能够生成高质量的自然语言文本¹²。
它只使用了无监督的预训练阶段，没有使用有监督的微调阶段，也就是说它不需要针对特定任务的标注数据²。
它在预训练阶段采用了多任务的方式，能够同时学习不同的自然语言处理任务，如翻译、问答、摘要等²。
它在预训练阶段使用了一个名为 WebText 的新数据集，该数据集包含了数百万网页的文本，覆盖了多个领域和主题²。
它在文本生成方面具有很高的可扩展性和灵活性，可以根据不同的输入和参数生成不同风格和内容的文本²。

Source: Conversation with Bing, 2023/5/13
(1) 完全图解GPT-2：看完这篇就够了（一） - 知乎专栏. https://zhuanlan.zhihu.com/p/79714797.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

3、GPT-2 的主要局限和缺点是什么？

GPT-2 的主要局限和缺点有以下几点：

GPT-2 只能生成英文文本，不能处理其他语言¹²。
GPT-2 生成的文本可能存在偏见、错误或不合理的内容，因为它是基于一个包含各种文本的数据集训练的，没有进行人工筛选或校验¹³。
GPT-2 生成的文本可能被滥用或误用，造成社会或道德上的问题，比如造谣、欺骗、诽谤等¹³。
GPT-2 生成的文本可能缺乏一致性或逻辑性，因为它是基于局部的概率分布进行预测的，没有考虑全局的语境或知识¹ 。
GPT-2 生成的文本可能难以区分真实或虚假，因为它可以模仿不同的风格和内容，需要专业的工具或人工来进行检测¹³。

Source: Conversation with Bing, 2023/5/13
(1) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(2) GPT-1/GPT-2/GPT-3/GPT-3.5 语言模型详细介绍 - 知乎. https://zhuanlan.zhihu.com/p/620494604.
(3) NLP模型应用之三：GPT与GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/106462515.

4、GPT-2 是怎么知道输入的文本是一个问题、标题还是一段对话呢？

GPT-2 不是通过显式的规则或标签来识别输入文本的类型的，而是通过隐式地学习大量的英文文本中的语言模式和语境来判断的。GPT-2 的输入文本格式是一个连续的文本序列，它可以包含任意的标点符号、换行符、空格等。GPT-2 会根据输入文本序列中的词汇、语法、语义等特征，以及它们之间的关联性和一致性，来生成下一个词的概率分布¹²。例如：

如果输入的文本是一个问题，通常会以问号结尾，或者包含一些疑问词，如 who, what, when, where, why, how 等。GPT-2 会根据这些特征，生成一个可能的答案，或者一个跟问题相关的话题¹。
如果输入的文本是一个标题，通常会比较短，或者包含一些引人注目的词汇，如 breaking news, shocking, amazing 等。GPT-2 会根据这些特征，生成一篇可能的文章，或者一个跟标题相关的内容¹。
如果输入的文本是一段对话，通常会包含一些引号、冒号、破折号等标点符号，或者包含一些人称代词、情感词、礼貌用语等词汇。GPT-2 会根据这些特征，生成下一句话，或者一个跟对话相关的场景¹。

Source: Conversation with Bing, 2023/5/13
(1) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(2) GitHub - openai/gpt-2: Code for the paper "Language Models … https://github.com/openai/gpt-2.
(3) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(4) Text Generation API | DeepAI. https://deepai.org/machine-learning-model/text-generator.

5、GPT-2 可以用于什么应用场景？

文本生成：GPT-2 可以根据给定的文本生成相关的文本，比如生成文章、代码、机器翻译、问答等¹²。
文本摘要：GPT-2 可以根据给定的文本生成一个简短的摘要，比如生成新闻摘要、书评摘要等¹²。
文本分类：GPT-2 可以根据给定的文本判断其所属的类别，比如判断情感倾向、主题分类等¹²。
文本相似度：GPT-2 可以根据给定的两个或多个文本计算它们之间的相似度，比如判断文本是否重复、是否抄袭等¹²。
文本填空：GPT-2 可以根据给定的文本中的空缺部分生成合适的词汇，比如完成语法测试、补全对话等¹²。

Source: Conversation with Bing, 2023/5/13
(1) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(4) 完全图解GPT-2：看完这篇就够了（一） - 知乎专栏. https://zhuanlan.zhihu.com/p/79714797.

6、GPT-2 与 GPT-1 有哪些区别？详细说说

网络结构

7、GPT-2 的网络结构是什么？跟 GPT-1 的网络结构有什么差别的地方？请用文字详细描述出来。

GPT-2 的网络结构是基于 Transformer 的解码器部分，使用了多层自注意力机制来生成文本。跟 GPT-1 的网络结构相比，GPT-2 的主要差别有以下几点：

GPT-2 的模型参数数量大大增加，从 1.17 亿增加到 15.7 亿，提高了模型的表达能力和泛化能力。
GPT-2 的 layer norm 层的位置发生了变化，从每个子层的输出后移动到每个子层的输入前，以及最后一个 Transformer 层的输出后，改善了梯度流动和收敛速度。
GPT-2 使用了字节对编码（Byte Pair Encoding，BPE）来处理文本，将文本切分为 subword 单位，减少了词汇表的大小和数据稀疏问题，同时能够处理未登录词和多语言文本。
GPT-2 使用了更大规模和更高质量的网页文本数据来预训练模型，利用社交网络的点赞机制筛选出高质量的文本，使模型能够学习到更丰富和更广泛的语言知识。

Source: Conversation with Bing, 2023/5/13
(1) GPT-2：结构、数据和字节对编码 - 知乎. https://zhuanlan.zhihu.com/p/136138225.
(2) GitHub - openai/gpt-2: Code for the paper "Language Models … https://github.com/openai/gpt-2.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

GPT-2 为什么要修改 layer norm 层的位置？有一些可能的原因和解释。¹

layer norm 是一种归一化方法，它可以减少梯度消失或爆炸的问题，提高模型的收敛速度和泛化能力。² layer norm 的位置会影响模型的表现，不同的位置可能适合不同的任务和数据集。³

GPT-2 是基于 Transformer 的语言模型，它主要由多个自注意力子层和全连接子层组成。¹ GPT-2 相比 GPT 的一个改变是，将 layer norm 从每个子层的输出移动到每个子层的输入，类似于 pre-activation residual network。¹ 另外，GPT-2 在最后一个 Transformer 的输出那里，增加了一个 layer norm。¹

这样做的好处可能有以下几点：

将 layer norm 放在输入处可以避免梯度反向传播时出现数值不稳定的情况，提高模型的稳定性和效率。³
将 layer norm 放在输入处可以让每个子层更容易学习恒等映射，即不改变输入的情况，这样可以增强模型的表达能力和灵活性。³
在最后一个 Transformer 的输出增加一个 layer norm 可以让模型更容易适应不同长度的序列，提高模型的泛化能力和鲁棒性。

当然，这些都是一些推测和假设，可能并不完全正确或充分。GPT-2 的作者没有给出明确的理由或证据来说明为什么要修改 layer norm 的位置。他们可能是通过实验发现这样做可以提高模型的性能，并没有深入探究背后的原理或机制。¹

Source: Conversation with Bing, 2023/5/14
(1) GPT-2：结构、数据和字节对编码 - 知乎. https://zhuanlan.zhihu.com/p/136138225.
(2) ADAPTING GPT, GPT-2 AND BERT LANGUAGE MODELS … https://arxiv.org/pdf/2108.07789v1.
(3) GPT-2 Explained | Papers With Code. https://paperswithcode.com/method/gpt-2.

8、什么是字节对编码？

字节对编码是一种数据压缩算法，它可以将最常见的一对相邻字节替换为一个新的字节，从而减少数据的长度。² 举个具体的例子，假设我们有一个数据 aaabdaaabac，我们可以用以下步骤进行字节对编码：

找到最常见的一对相邻字节，比如 aa，用一个新的字节 Z 替换它，得到 ZabdZabac。
再找到最常见的一对相邻字节，比如 ab，用一个新的字节 Y 替换它，得到 ZYdZYac。
重复这个过程，直到没有更多的相邻字节可以替换，或者达到预设的编码长度限制。

这样就完成了字节对编码，我们可以用一个字典来记录每个新字节和原来的一对字节之间的对应关系，比如 {Z: aa, Y: ab}。²

在自然语言处理中，字节对编码也可以用来将单词分割成子词单元（subword units），这样可以减少词汇表的大小，并且能够处理未知词和罕见词。³ 例如，假设我们有一个语料库，其中包含单词 old, older, finest 和 lowest，我们可以用以下步骤进行基于子词的字节对编码：

在每个单词的末尾添加一个特殊的结束标记，表示单词边界。
将每个单词拆分成字符，并计算它们在语料库中的出现频率。
找到最常见的一对相邻字符（包括），合并它们，并将它们添加到子词列表中，并重新计算每个子词出现的频率。
重复这个过程，直到达到预设的子词数量限制或迭代次数限制。

这样就完成了基于子词的字节对编码，我们可以用一个子词列表来表示语料库中的每个单词。³ 例如，如果我们设置子词数量限制为 10，那么我们可能得到以下子词列表：

{a, d, e, f, i, l, n, o, s, t}

并且我们可以用这些子词来表示语料库中的单词：

old -> o l d
older -> o l d e r
finest -> f i n e s t
lowest -> l o w e s t

如果我们继续增加子词数量限制，那么我们可能得到更长的子词列表，并且能够用更少的子词来表示语料库中的单词。³ 例如，如果我们设置子词数量限制为 15，那么我们可能得到以下子词列表：

{a, d, e, f, i, l, n, o, s, t, es, ld, ol, ow, st}

并且我们可以用这些子词来表示语料库中的单词：

old -> ol d
older -> ol d e r
finest -> f i n st
lowest -> l ow es

这样就能够更有效地利用子词列表来压缩数据，并且能够处理未知词和罕见词。³

Source: Conversation with Bing, 2023/5/14
(1) 理解NLP最重要的编码方式 — Byte Pair Encoding (BPE)，这 … https://zhuanlan.zhihu.com/p/424631681.
(2) 十分钟弄懂字节对编码_愤怒的可乐的博客-CSDN博客. https://blog.csdn.net/yjw123456/article/details/120050865.
(3) 字节对编码-Byte Pair Encoding - 知乎. https://zhuanlan.zhihu.com/p/369625931.

GPT-2 能够理解字节对编码后的文本吗？这对于 GPT-2 来说会不会太过抽象了？

GPT-2 能够理解字节对编码后的文本，因为它是在字节对编码后的文本上进行预训练和微调的。对于 GPT-2 来说，字节对编码后的文本并不是太过抽象，而是一种更有效的文本表示方式。

字节对编码后的文本可以减少词汇表的大小，缓解数据稀疏问题，处理未知词和罕见词，提高模型的泛化能力和鲁棒性。 GPT-2 可以从字节对编码后的文本中学习到更多的语义和语法信息，而不是只关注表面的字符或词。

当然，字节对编码后的文本也有一些缺点，比如可能会破坏一些词内的结构信息，比如形态学或拼写规则。但是，GPT-2 通过使用 Transformer 结构和自注意力机制，可以捕捉到更长距离的依赖关系，从而弥补这些缺失的信息。

9、GPT-2 的核心机制是什么？

GPT-2 的核心机制是自注意力机制，它是一种让模型学习如何将不同位置的输入序列中的词关联起来的方法。GPT-2 使用了掩码自注意力机制，它可以防止模型在生成文本时看到未来的词。GPT-2 还使用了多头自注意力机制，它可以让模型同时关注不同方面的信息。¹²

GPT-2 的自注意力机制可以分为以下几个步骤：

为每个词创建查询、键和值向量。
对于每个输入的词，通过使用其查询向量与其它所有键向量相乘得到注意力得分。
将值向量与它们相应的注意力得分相乘后求和。
将多个注意力头的结果连接起来，并进行投影。²

Source: Conversation with Bing, 2023/5/14
(1) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(2) 完全图解GPT-2：看完这篇就够了（二） - 知乎专栏. https://zhuanlan.zhihu.com/p/343925685.
(3) 完全图解GPT-2：看完这篇就够了（一） - 知乎专栏. https://zhuanlan.zhihu.com/p/79714797.
(4) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.

10、GPT-2 的输入层、中间层、输出层分别是什么？

GPT-2 的输入层是一个词嵌入层，它将输入序列中的每个词转换为一个向量，并加上一个位置编码。¹

GPT-2 的中间层是由多个 Transformer 解码器层组成的，每个解码器层包含一个掩码自注意力子层和一个前馈神经网络子层。¹²

GPT-2 的输出层是一个线性层，它将中间层的输出映射到词汇表的大小，并使用 softmax 函数得到每个词的概率分布。¹²

Source: Conversation with Bing, 2023/5/14
(1) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(2) GitHub - openai/gpt-2: Code for the paper "Language Models … https://github.com/openai/gpt-2.
(3) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.

11、GPT-2 的位置向量是怎么学习的？

GPT-2 的位置向量是固定的，不需要学习。它们是根据公式计算出来的，不是通过梯度下降来更新的。

GPT-2 的位置向量的公式如下：

$\begin{aligned} \text{PE}_{(pos,2i)} &= \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right) \\ \text{PE}_{(pos,2i+1)} &= \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right) \end{aligned}$

这是 GPT-2 的论文中给出的公式，其中 $\text{PE}$ 是位置向量， $p os$ 是位置索引， $i$ 是维度索引， $d_{model}$ 是模型维度。

GPT-2 的位置向量可以捕捉输入序列中词之间的相对位置关系，而不依赖于绝对位置。¹²

Source: Conversation with Bing, 2023/5/14
(1) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(2) GitHub - openai/gpt-2: Code for the paper "Language Models … https://github.com/openai/gpt-2.
(3) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.

12、GPT-2 的掩码机制是什么？

输入层是把整个序列输入到中间层的，但是中间层中的Masked Multi-Head Attention会使用一个掩码矩阵，来遮挡掉当前位置后面的单词的信息，从而实现只看前面的序列的效果。这个掩码矩阵是一个上三角形的矩阵，它的对角线和下方都是0，上方都是负无穷。当这个矩阵和注意力得分矩阵相加时，会使得当前位置后面的单词的注意力得分变成负无穷，然后经过softmax函数后变成0，从而忽略掉它们的影响。这样就可以保证只有前面的序列对当前位置的预测有贡献。
例如：

0	-∞	-∞	-∞
0	0	-∞	-∞
0	0	0	-∞
0	0	0	0

13、GPT-2的位置向量可以扩展到更长的序列吗？

GPT-2 的位置向量是一种用于表示每个词在序列中位置的向量。GPT-2 使用了绝对位置编码，即每个位置都有一个固定的向量，而不是相对于其他位置的向量。⁴

GPT-2 的位置向量的长度是固定的，即 768 维。这意味着它只能处理长度不超过 768 的序列。如果要扩展到更长的序列，就需要修改位置向量的长度或者使用其他的位置编码方法。⁴

一种可能的方法是使用相对位置编码，即每个位置的向量是根据它与其他位置的距离来计算的。这样就可以处理任意长度的序列，而不需要预先定义一个最大长度。⁵

Source: Conversation with Bing, 2023/5/14
(1) OpenAI GPT2 - Hugging Face. https://huggingface.co/docs/transformers/model_doc/gpt2.
(2) [R] GPT-2 Position Embeddings Visualized : r/MachineLearning. https://www.reddit.com/r/MachineLearning/comments/iifw9h/r_gpt2_position_embeddings_visualized/.
(3) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(4) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(5) GPT-2 - Wikipedia. https://ja.wikipedia.org/wiki/GPT-2.

14、GPT-2 如何处理不同长度的输入序列？

GPT-2 是一个基于 Transformer 的语言模型，它可以处理不同长度的输入序列，因为它使用了自注意力机制¹。自注意力机制可以让模型对输入序列中的每个单词都分配一个权重，从而捕捉到不同位置之间的关系²。GPT-2 的输入序列长度是 1024 个单词¹，但是它也可以处理更短或更长的序列，只要在序列的开头和结尾加上特殊的标记³。

Source: Conversation with Bing, 2023/5/14
(1) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) 完全图解GPT-2：看完这篇就够了（一） - 知乎专栏. https://zhuanlan.zhihu.com/p/79714797.

激活函数、损失函数、优化器

15、GPT-2 的激活函数是什么？

GPT-2的激活函数是GeLU，即高斯误差线性单元。¹² 它的数学表达式是：

$\text{GeLU}(x) = x \Phi(x) = x \frac{1}{2} \left[1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right]$

其中 $\Phi(x)$ 是标准正态分布的累积分布函数， $\text{erf}(x)$ 是误差函数。其中，erf是误差函数，其图像如下：

GeLU 的曲线图如下：

GeLU的特点是它是一个平滑的非线性函数，它可以近似模拟ReLU的性质，但是又避免了ReLU的一些缺点，比如梯度消失和死亡神经元。³ GeLU也可以更好地适应Transformer的结构，因为它可以保持输入和输出的均值和方差不变。

GPT-2使用GeLU作为中间层和输出层的激活函数，以提高模型的表达能力和学习效率。

Source: Conversation with Bing, 2023/5/12
(1) GPT models explained. Open AI’s GPT-1,GPT-2,GPT-3 … https://medium.com/walmartglobaltech/the-journey-of-open-ai-gpt-models-32d95b7b7fb2.
(2) Activation function and GLU variants for Transformer models. https://medium.com/@tariqanwarph/activation-function-and-glu-variants-for-transformer-models-a4fcbe85323f.
(3) OpenAI peeks into the “black box” of neural networks with … https://arstechnica.com/information-technology/2023/05/openai-peeks-into-the-black-box-of-neural-networks-with-new-research/.

GeLU的导数图像如下：

可以看到，当x越大时，导数越接近1，当x越小时，导数越接近0，而在零点附近是一个平滑的曲线，没有ReLU的尖锐变化。

GeLU的缺点有以下几点：

GeLU的计算复杂度较高，因为它涉及到误差函数和累积分布函数的计算，这些函数没有简单的解析形式，需要近似或者数值方法。¹
GeLU的导数也没有简单的解析形式，需要额外的计算，这会增加反向传播的开销。¹
GeLU的输出不是零均值的，这可能会影响模型的收敛速度和稳定性。²

Source: Conversation with Bing, 2023/5/12
(1) relu, GeLU , swish, mish activation function comparison. https://chadrick-kwag.net/relu-GeLU-swish-mish-activation-function-comparison/.
(2) [1606.08415] Gaussian Error Linear Units (GeLUs) - arXiv.org. https://arxiv.org/abs/1606.08415.
(3) GeLU activation explained | Towards AI. https://pub.towardsai.net/is-GeLU-the-relu-successor-deep-learning-activations-7506cf96724f.
(4) GeLU Explained | Papers With Code. https://paperswithcode.com/method/GeLU.

16、GPT-2 的损失函数是什么？

GPT-2 的损失函数是交叉熵损失函数，它和对数似然函数在数学上是等价的²。交叉熵损失函数的公式是：

$L(\theta) = -\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{V}y_{ij}\log p_{\theta}(y_{ij}|x_i)$

其中， $N$ 是样本数量， $V$ 是词汇表大小， $y_{ij}$ 是第 $i$ 个样本的第 $j$ 个词的真实标签（0 或 1）， $p_{\theta}(y_{ij}|x_i)$ 是模型预测的第 $i$ 个样本的第 $j$ 个词的概率， $\theta$ 是模型参数。

Source: Conversation with Bing, 2023/5/14
(1) 笔记：李沐老师GPT系列讲解 - 知乎. https://zhuanlan.zhihu.com/p/477227937.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

17、为什么 GPT-1 的损失函数使用对数似然函数，而 GPT-2 使用交叉熵损失函数？

GPT-1 的损失函数使用对数似然函数，而 GPT-2 使用交叉熵损失函数的原因是⁴：

对数似然函数和交叉熵损失函数在数学上是等价的，只是形式不同。对数似然函数是最大化似然概率，交叉熵损失函数是最小化预测分布和真实分布之间的距离。
GPT-1 和 GPT-2 的模型结构几乎没有变化，只是 GPT-2 的模型更大更宽，并且取消了 Fine-tuning 的步骤。因此，使用不同的损失函数并不会影响模型的性能。
GPT-2 使用交叉熵损失函数可能是为了和其他的预训练语言模型（如 BERT）保持一致，或者是为了方便计算和理解。

Source: Conversation with Bing, 2023/5/14
(1) GPT-2 和 GPT-1 这两个模型有什么区别？ - 知乎专栏. https://zhuanlan.zhihu.com/p/399986545.
(2) OpenAI ChatGPT（二）：十分钟读懂 GPT-1 - 知乎. https://zhuanlan.zhihu.com/p/604625917.
(3) 预训练语言模型之GPT-1，GPT-2和GPT-3 - 知乎. https://zhuanlan.zhihu.com/p/350017443.
(4) GitHub - akshat0123/GPT-1: Pytorch implementation of GPT-1. https://github.com/akshat0123/GPT-1.
(5) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

18、用公式逐步地证明交叉熵损失函数和对数似然函数在数学上是等价的，请参考以下的推导过程：

假设我们有一个数据集 $X=\{x_1,x_2,\dots,x_n\}$ ，每个数据点 $x_i$ 都有一个标签 $y_i \in \{0,1\}$ 。我们的模型是一个二分类器，它给出了每个数据点属于类别 1 的概率 $p(y=1|x;\theta)$ ，其中 $\theta$ 是模型的参数。我们的目标是找到最优的 $\theta$ ，使得模型能够最好地拟合数据。

对数似然函数是一种常用的评估模型拟合程度的方法，它定义为：

$\log L(\theta) = \sum_{i=1}^n y_i \log p(y=1|x_i;\theta) + (1-y_i) \log p(y=0|x_i;\theta)$

这个函数的含义是，给定模型参数 $\theta$ ，数据集 $X$ 出现的概率的对数。我们希望最大化这个函数，也就是找到使数据集出现概率最大的参数 $\theta$ 。这就是最大似然估计（MLE）的思想。

交叉熵损失函数是一种常用的评估模型预测误差的方法，它定义为：

$L(\theta) = -\frac{1}{n} \sum_{i=1}^n y_i \log p(y=1|x_i;\theta) + (1-y_i) \log p(y=0|x_i;\theta)$

这个函数的含义是，给定模型参数 $\theta$ ，模型预测的概率分布和真实标签的概率分布之间的距离。我们希望最小化这个函数，也就是找到使模型预测和真实标签最接近的参数 $\theta$ 。这就是最小交叉熵（MCE）的思想。

可以看出，对数似然函数和交叉熵损失函数只有两个不同之处：一个是符号相反，一个是有一个系数 $\frac{1}{n}$ 。但是这两个不同并不影响它们在数学上的等价性，因为：

符号相反只意味着最大化对数似然函数等价于最小化交叉熵损失函数，反之亦然。
系数 $\frac{1}{n}$ 只是一个常数，它不会改变函数的形状和极值点，只会改变函数的值。

因此，我们可以得出结论：交叉熵损失函数和对数似然函数在数学上是等价的，它们都可以用来评估模型的好坏，并且都可以通过求导和梯度下降等方法来优化。

Source: Conversation with Bing, 2023/5/14
(1) Cross Validated - the relationship between maximizing the … https://stats.stackexchange.com/questions/364216/the-relationship-between-maximizing-the-likelihood-and-minimizing-the-cross-entr.
(2) Cross-entropy and Maximum Likelihood Estimation - Medium. https://medium.com/konvergen/cross-entropy-and-maximum-likelihood-estimation-58942b52517a.
(3) Relationship between log-likelihood function and entropy … https://stats.stackexchange.com/questions/504136/relationship-between-log-likelihood-function-and-entropy-instead-of-cross-entro.
(4) Connection between loss and likelihood function - Cross … https://stats.stackexchange.com/questions/295784/connection-between-loss-and-likelihood-function.

19、GPT-2 的优化器是什么？

GPT-2 的优化器是 Adam，它是一种基于梯度下降的优化算法，可以自适应地调整学习率和动量。GPT-2 使用了一些特殊的设置，比如：

学习率为 2.5e-4
动量参数 $\beta_1$ 为 0.9
动量参数 $\beta_2$ 为 0.999
权重衰减系数为 0.01
学习率预热步数为 2000
学习率衰减方式为 cosine

Source: Conversation with Bing, 2023/5/14
(1) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) GPT-2 - Wikipedia. https://ja.wikipedia.org/wiki/GPT-2.

评估标准

20、GPT-2 如何评估语言模型的性能？

GPT-2 评估语言模型的性能主要使用了两个指标：困惑度（perplexity）和零次采样（zero-shot）¹。困惑度是一种衡量语言模型预测下一个词的能力的指标，它反映了语言模型对输入序列的不确定性，数值越低表示预测越准确¹。零次采样是一种测试语言模型生成文本的能力的方法，它不需要任何额外的训练数据或标签，只需要给定一个文本片段作为输入，然后让语言模型自动续写后续的文本²。GPT-2 在不同规模的数据集上都表现出了优异的困惑度和零次采样结果¹。

Source: Conversation with Bing, 2023/5/14
(1) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(2) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

21、什么是困惑度？

困惑度是语言模型对测试集的预测能力的度量，它反映了语言模型对未知文本的不确定性。困惑度越低，说明语言模型越准确，越能够预测下一个词。困惑度的计算公式是：

超参数

22、GPT-2 的超参数分别有哪些？

GPT-2 的超参数分别有以下几种³：

序列长度 L，表示输入文本的最大长度，GPT-2 中设置为 1024。
Embedding 层词嵌入维度 d_model，表示词向量的维度，GPT-2 中设置为 1600。
多头数 h，表示自注意力层中的并行头数，GPT-2 中设置为 25。
Transformer 层数 n_layer，表示模型中堆叠的 Transformer 模块的个数，GPT-2 中设置为 48。
Feed Forward 层隐层维度 d_ff，表示前馈神经网络中的隐层维度，GPT-2 中设置为 6400。
Dropout 概率 p_drop，表示模型中各层使用的 Dropout 概率，GPT-2 中设置为 0.1。

Source: Conversation with Bing, 2023/5/14
(1) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(4) 预训练语言模型之GPT-1，GPT-2和GPT-3 - 知乎. https://zhuanlan.zhihu.com/p/350017443.

23、GPT-2 的参数数量是多少？它相比于之前的语言模型有多大的提升？

GPT-2 的参数数量是 15亿¹²。它相比于之前的语言模型有很大的提升，因为它使用了更大更深的 Transformer 的结构，利用了更多更广泛的 WebText 数据集进行预训练²。它还 取消了 Fine-tuning 的步骤，直接用预训练的语言模型来解决多个下游任务²。它在 zero-shot 设置下，在8个测试数据集中有7个实现了 SOTA²。

Source: Conversation with Bing, 2023/5/14
(1) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://bing.com/search?q=GPT-2+%e5%8f%82%e6%95%b0%e6%95%b0%e9%87%8f.
(2) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

训练

24、GPT-2 是如何训练的？

GPT-2 是一种基于 Transformer 的大型语言模型，它使用了自回归的方式来预测下一个词。GPT-2 的训练方法如下：

首先，GPT-2 使用了一个大规模的文本数据集 WebText，包含了从互联网上抓取的约 40GB 的英文文本。
然后，GPT-2 对 WebText 进行了分词，使用了 Byte Pair Encoding (BPE) 的方法，将文本切分成了约 50K 个子词。
接着，GPT-2 使用了一个 Transformer 编码器作为模型的主体，它由多层的自注意力机制和前馈神经网络组成。GPT-2 的模型参数数量取决于模型的层数、隐藏层大小、注意力头数等超参数。GPT-2 发布了四个不同规模的模型，分别是 124M、355M、774M 和 1.5B，其中 1.5B 是最大的版本，有 48 层、1600 维的隐藏层和 16 个注意力头，共有约 15 亿个参数¹²。
最后，GPT-2 使用了交叉熵损失函数来训练模型，即给定一个文本序列，预测下一个词的概率分布。GPT-2 使用了掩码机制 (masking mechanism) 来保证预测时只能使用之前的词而不能使用之后的词。这样，GPT-2 学习到了英语语言的内部表示，可以用于生成文本或者微调到下游任务上¹³。

Source: Conversation with Bing, 2023/5/15
(1) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(2) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

25、GPT-2 如何生成文本？请介绍它使用的采样策略和温度参数。

GPT-2是一种基于Transformer的语言模型，它可以根据给定的文本生成后续的文本。它的基本原理是使用自回归（autoregressive）的方法，即预测下一个词的概率分布，然后从中采样一个词作为输出，再将这个词作为输入，重复这个过程，直到生成一个完整的文本¹²。GPT-2使用了多层的Transformer Decoder结构，每一层都包含了自注意力（self-attention）和前馈神经网络（feed-forward neural network）两个子层³⁴。GPT-2还使用了位置编码（position encoding）和层归一化（layer normalization）等技术来提高模型的效果⁴。

Source: Conversation with Bing, 2023/5/15
(1) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(2) Text Generation API | DeepAI. https://deepai.org/machine-learning-model/text-generator.
(3) 项目实战（十） - - GPT-2实现文本生成 - CSDN博客. https://blog.csdn.net/sollasido/article/details/108001249.
(4) 完全图解GPT-2：看完这篇就够了（一） - 知乎专栏. https://zhuanlan.zhihu.com/p/79714797.

GPT-2使用了一种称为top-k sampling的采样策略，它是指在每个时间步，只从概率最高的k个词中随机选择一个词作为输出，而忽略其他词¹。这样可以避免生成一些低概率的词，提高生成文本的质量。但是，这种方法也有一个缺点，就是可能导致生成一些重复或无意义的文本，因为它没有考虑到上下文的信息²。

为了解决这个问题，GPT-2还使用了一个温度参数（temperature parameter），它是一个正数，用来调节概率分布的形状²。温度参数越大，概率分布越平坦，越倾向于探索不同的词；温度参数越小，概率分布越尖锐，越倾向于选择最高概率的词²。温度参数可以根据不同的任务和需求进行调整，以达到最佳的生成效果。

Source: Conversation with Bing, 2023/5/15
(1) GPT-2: 1.5B release - OpenAI. https://openai.com/research/gpt-2-1-5b-release.
(2) gpt2 · Hugging Face. https://huggingface.co/gpt2.
(3) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.

微调

26、GPT-2 如何进行下游任务的微调？请举例说明一个下游任务，并描述其输入和输出格式。

GPT-2 不使用微调，因为 GPT-2 强调的少样本，也就是说只需要在输入文本中举几个你想要问的问题的类似的例子，
GPT-2 就能够学会你想要问的问题是什么，以及需要怎么样回答你的问题。

改进

27、GPT-2 有什么可以改进的地方？

GPT-2的自注意力和位置编码不能有效地建模细粒度的词级序列上下文，这对于语言模型而言是至关重要的¹²。一种可能的改进方法是在Transformer模块之后添加LSTM层，以获取更好的序列信息¹。
GPT-2的采样策略和温度参数对于生成文本的质量和多样性有很大的影响，但它们也有一些缺点，比如可能导致重复或无意义的文本²。一种可能的改进方法是使用其他的采样策略，比如top-p sampling或nucleus sampling，它们是指在每个时间步，只从累积概率超过某个阈值p的词中随机选择一个词作为输出³。这样可以避免生成一些极低概率的词，同时保留一定的多样性³。
GPT-2的模型参数非常多，达到了15亿个，这使得它的训练和部署非常耗时和昂贵。一种可能的改进方法是使用架构搜索的技术，来寻找更高效的Transformer架构¹。比如，使用协调式架构搜索（CAS），它是一种基于当前最佳架构随机生成变体的贪婪算法，可以快速地找到优化语言模型的架构¹。

Source: Conversation with Bing, 2023/5/15
(1) OpenAI ChatGPT（三）：十分钟读懂 GPT-2 - 知乎. https://zhuanlan.zhihu.com/p/613895056.
(2) 进一步改进GPT和BERT：使用Transformer的语言模型 - 知乎. https://zhuanlan.zhihu.com/p/64448382.
(3) GPT综述-各模型之间的对比 - 知乎. https://zhuanlan.zhihu.com/p/450074465.

代码

28、使用 pytorch 来实现 GPT-2 的代码

¹ GitHub - graykode/gpt-2-Pytorch: Simple Text-Generator with OpenAI gpt-2 Pytorch Implementation，这是一个简单的文本生成器，使用了huggingface提供的GPT-2的pytorch模型，可以在Google Colab上运行。
² Generating Text Summaries Using GPT-2 on PyTorch | Paperspace Blog，这是一个使用GPT-2进行文本摘要的教程，介绍了如何在CNN/Daily Mail数据集上进行微调和评估。
³ GitHub - karpathy/minGPT: A minimal PyTorch re-implementation of GPT, both training and inference，这是一个最小化的GPT的pytorch实现，旨在保持简洁、清晰、可解释和教育性，可以用于训练和推理。

Source: Conversation with Bing, 2023/5/15
(1) GitHub - graykode/gpt-2-Pytorch: Simple Text-Generator with … https://github.com/graykode/gpt-2-Pytorch.
(2) Generating Text Summaries Using GPT-2 on PyTorch … https://blog.paperspace.com/generating-text-summaries-gpt-2/.
(3) GitHub - karpathy/minGPT: A minimal PyTorch re … https://github.com/karpathy/minGPT.

你可能感兴趣的:(gpt,人工智能,机器学习)

客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
使用AI识别语音和B站视频并通过GPT生成思维导图思维导图gpt-4
AI脑图除了对文本、网页链接和文件生成思维导图外，现在也支持了对语音和B站视频的内容识别，并自动生成思维导图。语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容，然后提炼内容关键信息、结构化梳理，并生成思维导图，同时也可以下载识别好的
使用AI识别语音和B站视频并通过GPT生成思维导图思维导图gpt-4
AI脑图除了对文本、网页链接和文件生成思维导图外，现在也支持了对语音和B站视频的内容识别，并自动生成思维导图。语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容，然后提炼内容关键信息、结构化梳理，并生成思维导图，同时也可以下载识别好的
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
SAP ABAP 调用 DeepSeek，API Key 存在什么地方最安全？汪子熙 ABAP 百科全书安全 ABAP NetWeaver 思爱普
笔者最近在处理一个SAP电商云和SAPS/4HANA集成后商品库存显示不同步的棘手问题。DeepSeek和ChatGPT没能帮上忙，最后还是查公司内网wiki搞定了。DeepSeek和ChatGPT确实不是万能的。ChatGPT3.5刚发布不久，我记得很多朋友聊起过大语言模型的「讨好型人格」，即倾向于迎合用户的观点、顺从用户的意愿。甚至在极端情况下，当用户对其回复提出质疑时，它会马上认怂，承认自己
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
如何用Function Calling解锁OpenAI的「真实世界」交互能力？（附Node.js 实战） hongkid AI编程
一、FunctionCalling：大模型的「手脚延伸器」1.1核心定义FunctionCalling是OpenAI在2023年6月13日推出的革命性功能（对应模型版本gpt-3.5-turbo-0613和gpt-4-0613），允许开发者通过自然语言指令触发预定义函数，实现大模型与现实世界系统的交互。如同给语言模型安装「手脚」，使其不仅能思考，还能执行具体操作。openai官方说明：https:
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc