Runjavago

GPT家族

Task04 GPT家族

GPT-1
- GPT-1的训练
- 无监督预训练
- 有监督微调
- 任务相关的输入变换
- GPT-1的数据集
- 网络结构的细节
- 无监督训练
- 有监督微调
- GPT-1的性能
- 总结
GPT-2
- GPT-2的核心思想
- GPT-2的数据集
- 模型结构
- GPT-2的性能
- 与 GPT-1 的区别
- 总结
GPT-3
- 模型结构
- 数据集
- 下游评估方式
- In-context learning
- 结果
- GPT-3的性能
- GPT-3有什么问题？

GPT-1

在GPT-1之前（和ELMo同一年），传统的NLP模型往往使用大量的数据对有监督的模型进行任务相关的模型训练，但是这种有监督学习的任务存在两个缺点：

需要大量的标注数据，高质量的标注数据往往很难获得，因为在很多任务中，图像的标签并不是唯一的或者实例标签并不存在明确的边界；
根据一个任务训练的模型很难泛化到其它任务中，这个模型只能叫做“领域专家”而不是真正的理解了NLP。

这里介绍的GPT-1的思想是先通过在无标签的数据上学习一个生成式的语言模型，然后再根据特定热任务进行微调，处理的有监督任务包括

自然语言推理（Natural Language Inference 或者 Textual Entailment）：判断两个句子是包含关系（entailment），矛盾关系（contradiction），或者中立关系（neutral）；
问答和常识推理（Question answering and commonsense reasoning）：类似于多选题，输入一个文章，一个问题以及若干个候选答案，输出为每个答案的预测概率；
语义相似度（Semantic Similarity）：判断两个句子是否语义上市是相关的；
分类（Classification）：判断输入文本是指定的哪个类别。

将无监督学习左右有监督模型的预训练目标，因此叫做生成式预训练（Generative Pre-training，GPT）。

GPT-1的训练

GPT-1的训练分为无监督的预训练和有监督的模型微调，下面进行详细介绍。

无监督预训练

GPT-1的无监督预训练是基于语言模型进行训练的，给定一个无标签的序列$ \mathcal{U} = {u_1, \cdots, u_n} $，语言模型的优化目标是最大化下面的似然值：

$L_1(\mathcal{U}) = \sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)$ (1)

其中$ k $是滑动窗口的大小，$ P $是条件概率，$ \Theta $是模型的参数。这些参数使用SGD进行优化。

在GPT-1中，使用了12个transformer块的结构作为解码器，每个transformer块是一个多头的自注意力机制，然后通过全连接得到输出的概率分布。

$h_0 = UW_e + W_p$ (2)

$ h_l = \text{transformer_block}(h_{l-1}) \forall i \in [1,n] $ (3)

$ P(u) = \text{softmax}(h_nW_e^T) $ (4)

其中$ U=(u_{-k},\dots,u_{-1}) $是当前时间片的上下文 t o k e n ，$ n $是层数，$ W_e $是词嵌入矩阵，$ W_p $是位置嵌入矩阵。

有监督微调

当得到无监督的预训练模型之后，我们将它的值直接应用到有监督任务中。对于一个有标签的数据集$ \mathcal{C} $，每个实例有 m 个输入token： $ {x^1, \dots, x^m} $，它对于的标签$ y $组成。首先将这些 t o k e n 输入到训练好的预训练模型中，得到最终的特征向量$ h_l^m $。然后再通过一个全连接层得到预测结果$ y $：

$P(y|x^1, \dots, x^m) = \text{softmax}(h^m_l W_y)$ (5)

其中$ W_y $为全连接层的参数。有监督的目标则是最大化(5)式的值：

$L_2(\mathcal{C}) = \sum_{x,y} \log P(y|x^1, \dots, x^m)$ (6)

作者并没有直接使用$ L_2 $，而是向其中加入了$ L_1 $，并使用$ \lambda $进行两个任务权值的调整，$ \lambda $的值一般为$ 0.5 $：

$ L_3(\mathcal{C}) = L_2(\mathcal{C}) + \lambda L_1(\mathcal{C}) $ (7)

当进行有监督微调的时候，我们只训练输出层的$ W_y $和分隔符（delimiter）的嵌入值。

任务相关的输入变换

文章开头介绍了GPT-1处理的4个不同的任务，这些任务有的只有一个输入，有的则有多组形式的输入。对于不同的输入，GPT-1有不同的处理方式，具体介绍如下：

分类任务：将起始和终止token加入到原始序列两端，输入transformer中得到特征向量，最后经过一个全连接得到预测的概率分布；
自然语言推理：将前提（premise）和假设（hypothesis）通过分隔符（Delimiter）隔开，两端加上起始和终止token。再依次通过transformer和全连接得到预测结果；
语义相似度：输入的两个句子，正向和反向各拼接一次，然后分别输入给transformer，得到的特征向量拼接后再送给全连接得到预测结果；
问答和常识推理：将 n 个选项的问题抽象化为 n 个二分类问题，即每个选项分别和内容进行拼接，然后各送入transformer和全连接中，最后选择置信度最高的作为预测结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GPT-1的数据集

GPT-1使用了BooksCorpus数据集，这个数据集包含 7,000 本没有发布的书籍。选这个数据集的原因有二：1. 数据集拥有更长的上下文依赖关系，使得模型能学得更长期的依赖关系；2. 这些书籍因为没有发布，所以很难在下游数据集上见到，更能验证模型的泛化能力。

网络结构的细节

GPT-1使用了12层的transformer，使用了掩码自注意力头，掩码的使用使模型看不见未来的信息，得到的模型泛化能力更强。

无监督训练

使用字节对编码（byte pair encoding，BPE），共有 40,000 个字节对；
词编码的长度为 768 ；
位置编码也需要学习；
12 层的transformer，每个transformer块有 12 个头；
位置编码的长度是 3,072 ；
Attention，残差，Dropout等机制用来进行正则化，drop比例为 0.1 ；
激活函数为GLEU；
训练的batchsize为 64 ，学习率为 2.5$ e^{-4} $，序列长度为 512 ，序列epoch为 100 ；
模型参数数量为 1.17 亿。

有监督微调

无监督部分的模型也会用来微调；
训练的epoch为 3 ，学习率为 6.25$ e^{-5} $，这表明模型在无监督部分学到了大量有用的特征。

GPT-1的性能

在有监督学习的12个任务中，GPT-1在9个任务上的表现超过了state-of-the-art的模型。在没有见过数据的zero-shot任务中，GPT-1的模型要比基于LSTM的模型稳定，且随着训练次数的增加，GPT-1的性能也逐渐提升，表明GPT-1有非常强的泛化能力，能够用到和有监督任务无关的其它NLP任务中。GPT-1证明了transformer对学习词向量的强大能力，在GPT-1得到的词向量基础上进行下游任务的学习，能够让下游任务取得更好的泛化能力。对于下游任务的训练，GPT-1往往只需要简单的微调便能取得非常好的效果。

GPT-1在未经微调的任务上虽然也有一定效果，但是其泛化能力远远低于经过微调的有监督任务，说明了GPT-1只是一个简单的领域专家，而非通用的语言学家。

总结

初代 GPT 到底做了什么？有哪些贡献？

第一，它是最早一批提出在 NLP 任务上使用 pre-train + fine-tuning 范式的工作。

第二，GPT 的实验证明了模型的精度和泛化能力会随着解码器层数增加而不断提升，而且目前还有提升空间。

第三，预训练模型具有 zero-shot 的能力，并且能随着预训练的进行不断增强。

值得注意的是，上述第二和第三点，也直接预示着后续 GPT-2 和 GPT-3 的出现。

其实 pre-train + fine-tuning 在计算机视觉里面早在好多年前已经成为主流的算法，但是在 NLP 中一直没有流行起来，主要还是因为在 NLP 里面没有像 ImageNet 那样大规模标好的数据集，这也导致相当一段时间内，深度学习在 NLP 的进展相对比较缓慢，直到 GPT 和 BERT 的出现才渐渐打开局面。

如果说使用大规模无标注的文本进行模型的预训练使 NLP 的发展往前走了一大步，那么 GPT 系列一直在努力推动的 zero-shot 可以说是走了另一大步。

为了进一步验证 zero-shot 的能力，OpenAI 在 GPT-1 提出一年后，推出了 GPT-2。

GPT-2

GPT-2 原文标题为 Language Models are Unsupervised Multitask Learners，字面意思为语言模型是一种无监督多任务学习器。

标题中的多任务学习与我们常规理解的有监督学习中的多任务不太一样，这里主要是指模型从大规模数据中学到的能力能够直接在多个任务之间进行迁移，而不需要额外提供特定任务的数据，因此引出了 GPT-2 的主要观点：zero-shot。

不论是 GPT-1 还是 BERT，NLP 任务中比较主流的 pre-train + fine-tuning 始终还是需要一定量的下游任务有监督数据去进行额外的训练，在模型层面也需要额外的模块去进行预测，仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题，通过 zero-shot，在迁移到其他任务上的时候不需要额外的标注数据，也不需要额外的模型训练。

GPT-2的目标旨在训练一个泛化能力更强的词向量模型，它并没有对GPT-1的网络进行过多的结构的创新与设计，只是使用了更多的网络参数和更大的数据集。

GPT-2的核心思想

GPT-2的学习目标是使用无监督的预训练模型做有监督的任务。因为文本数据的时序性，一个输出序列可以表示为一系列条件概率的乘积：

$\prod_{i=1}^n p (s_n | s_1, \dots, s_{n-1})$ (8)

上式也可以表示为$ p(s_{n-k},\dots,s_n | s_1, s_2, \dots, s_{n-k-1}) $，它的实际意义是根据已知的上文$ input = {s_1, s_2, \dots, s_{n-k-1}} $预测未知的下文$ output={s_{n-k},\dots,s_k} $，因此语言模型可以表示为$ p(output|input) $。对于一个有监督的任务，它可以建模为$ p(output|input,task) $的形式。在decaNLP中，他们提出的MQAN模型可以将机器翻译，自然语言推理，语义分析，关系提取等10类任务统一建模为一个分类任务，而无需再为每一个子任务单独设计一个模型。

基于上面的思想，作者认为，当一个语言模型的容量足够大时，它就足以覆盖所有的有监督任务，也就是说所有的有监督学习都是无监督语言模型的一个子集。例如当模型训练完“Micheal Jordan is the best basketball player in the history”语料的语言模型之后，便也学会了(question：“who is the best basketball player in the history ?”，answer:“Micheal Jordan”)的Q&A任务。

综上，GPT-2 的核心思想就是，当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要在下游任务微调。

GPT-2的数据集

GPT-2的文章取自于Reddit上高赞的文章，命名为WebText。数据集共有约800万篇文章，累计体积约40G。为了避免和测试集的冲突，WebText移除了涉及Wikipedia的文章。

模型结构

在模型结构方面，整个 GPT-2 的模型框架与 GPT-1 相同，只是做了几个地方的调整，这些调整更多的是被当作训练时的 trick，而不作为 GPT-2 的创新，具体为以下几点：

后置层归一化（ post-norm ）改为前置层归一化（ pre-norm ）;
在模型最后一个自注意力层之后，额外增加一个层归一化;
调整参数的初始化方式，按残差层个数进行缩放，缩放比例为$ 1 : \sqrt[]{n} $;
输入序列的最大长度从 512 扩充到 1024;

其中，关于 post-norm 和 pre-norm 可以参考《Learning Deep Transformer Models for Machine Translation》。两者的主要区别在于，post-norm 将 transformer 中每一个 block 的层归一化放在了残差层之后，而 pre-norm 将层归一化放在了每个 block 的输入位置，如下图所示：

GPT-2 进行上述模型调整的主要原因在于，随着模型层数不断增加，梯度消失和梯度爆炸的风险越来越大，这些调整能够减少预训练过程中各层之间的方差变化，使梯度更加稳定。

其中 117M 参数等价于 GPT-1 模型，345M 参数模型用于对标同期的 BERT-large 模型。

其他改动

同样使用了使用字节对编码构建字典，字典的大小为 50,257 ；
滑动窗口的大小为 1,024 ；
batchsize的大小为 512 ；
将残差层的初始化值用$ 1/\sqrt{N} $进行缩放，其中 N 是残差层的个数。

最终 GPT-2 提供了四种规模的模型：

GPT-2的性能

在8个语言模型任务中，仅仅通过zero-shot学习，GPT-2就有7个超过了state-of-the-art的方法；
在“Children’s Book Test”数据集上的命名实体识别任务中，GPT-2超过了state-of-the-art的方法约7%；
“LAMBADA”是测试模型捕捉长期依赖的能力的数据集，GPT-2将困惑度从99.8降到了8.6；
在阅读理解数据中，GPT-2超过了4个baseline模型中的三个；
在法译英任务中，GPT-2在zero-shot学习的基础上，超过了大多数的无监督方法，但是比有监督的state-of-the-art模型要差；
GPT-2在文本总结的表现不理想，但是它的效果也和有监督的模型非常接近。

与 GPT-1 的区别

整体来看，GPT-2 相比于 GPT-1 有如下几点区别：

主推 zero-shot，而 GPT-1 为 pre-train + fine-tuning；
训练数据规模更大，GPT-2 为 800w 文档 40G，GPT-1 为 5GB；
模型大小，GPT-2 最大 15 亿参数，GPT-1为 1 亿参数；
模型结构调整，层归一化和参数初始化方式；
训练参数，batch_size 从 64 增加到 512，上文窗口大小从 512 增加到 1024，等等；

总结

GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。但是很多实验也表明，GPT-2的无监督学习的能力还有很大的提升空间，甚至在有些任务上的表现不比随机的好。尽管在有些zero-shot的任务上的表现不错，但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子。GPT-2表明随着模型容量和数据量的增大，其潜能还有进一步开发的空间，基于这个思想，诞生了我们下面要介绍的GPT-3。

GPT-3

虽然 GPT-2 主推的 zero-shot 在创新度上有比较高的水平，但是由于其在效果上表现平平，所以在业界并没有取得比较大的影响力，而 GPT-3 正是为了解决效果上的问题而提出的。GPT-3 不再去追求那种极致的不需要任何样本就可以表现很好的模型，而是考虑像人类的学习方式那样，仅仅使用极少数样本就可以掌握某一个任务，因此就引出了 GPT-3 标题 Language Models are Few-Shot Learners。

模型结构

在模型结构上，GPT-3 延续使用 GPT 模型结构，但是引入了 Sparse Transformer 中的 sparse attention 模块（稀疏注意力）。

sparse attention 与传统 self-attention（称为 dense attention）的区别在于：

dense attention：每个 token 之间两两计算 attention，复杂度 O(n²)
sparse attention：每个 token 只与其他 token 的一个子集计算 attention，复杂度 O(n*logn)

具体来说，sparse attention 除了相对距离不超过 k 以及相对距离为 k，2k，3k，… 的 token，其他所有 token 的注意力都设为 0，如下图所示：

使用 sparse attention 的好处主要有以下两点：

减少注意力层的计算复杂度，节约显存和耗时，从而能够处理更长的输入序列；
具有“局部紧密相关和远程稀疏相关”的特性，对于距离较近的上下文关注更多，对于距离较远的上下文关注较少；

另外在网络容量上做了很大的提升，具体如下：

GPT-3采用了 96 层的多头transformer，头的个数为 96 ；
词向量的长度是 12,888 ；
上下文划窗的窗口大小提升至 2,048 个token；
使用了alternating dense和locally banded sparse attention。

数据集

GPT-3共训练了5个不同的语料，分别是低质量的Common Crawl，高质量的WebText2，Books1，Books2和Wikipedia，GPT-3根据数据集的不同的质量赋予了不同的权值，权值越高的在训练的时候越容易抽样到，如表1所示。

下游评估方式

GPT-3 在下游任务的评估与预测时，提供了三种不同的方法：

Zero-shot：仅使用当前任务的自然语言描述，不进行任何梯度更新；

One-shot：当前任务的自然语言描述，加上一个简单的输入输出样例，不进行任何梯度更新；

Few-shot：当前任务的自然语言描述，加上几个简单的输入输出样例，不进行任何梯度更新；·

其中 Few-shot 也被称为 in-context learning，虽然它与 fine-tuning 一样都需要一些有监督标注数据，但是两者的区别是：

【本质区别】fine-tuning 基于标注数据对模型参数进行更新，而 in-context learning 使用标注数据时不做任何的梯度回传，模型参数不更新；
in-context learning 依赖的数据量（10～100）远远小于 fine-tuning 一般的数据量；

In-context learning

In-context learning是这篇论文中介绍的一个重要概念，要理解in-context learning，需要先理解meta-learning（元学习）。对于一个少样本的任务来说，模型的初始化值非常重要，从一个好的初始化值作为起点，模型能够尽快收敛，使得到的结果非常快的逼近全局最优解。元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围，使得模型能够在有限的数据集上快速拟合，并获得不错的效果。

这里的介绍使用的是MAML（Model-Agnostic Meta-Learning）算法，正常的监督学习是将一个批次的数据打包成一个batch进行学习。但是元学习是将一个个任务打包成batch，每个batch分为支持集（support set）和质询集（query set），类似于学习任务中的训练集和测试集。

对一个网络模型 f ，其参数表示为$ \theta $，它的初始化值被叫做meta-initialization。MAML的目标则是学习一组meta-initialization，能够快速应用到其它任务中。MAML的迭代涉及两次参数更新，分别是内循环（inner loop）和外循环（outer loop）。内循环是根据任务标签快速的对具体的任务进行学习和适应，而外学习则是对meta-initialization进行更新。直观的理解，我用一组meta-initialization去学习多个任务，如果每个任务都学得比较好，则说明这组meta-initialization是一个不错的初始化值，否则我们就去对这组值进行更新，如图4所示。目前的实验结果表明元学习距离学习一个通用的词向量模型还是有很多工作要做的。

而GPT-3中据介绍的in-context learning（情境学习）则是元学习的内循环，而基于语言模型的SGT则是外循环，如图5所示。

而另外一个方向则是提供容量足够大的transformer模型来对语言模型进行建模。而近年来使用大规模的网络来训练语言模型也成为了非常行之有效的策略（图6），这也促使GPT-3一口气将模型参数提高到 1,750 亿个。

结果

在few-shot learning中，提供若干个（ 10 - 100 个）示例和任务描述供模型学习。one-shot laerning是提供1个示例和任务描述。zero-shot则是不提供示例，只是在测试时提供任务相关的具体描述。作者对这3种学习方式分别进行了实验，实验结果表明，三个学习方式的效果都会随着模型容量的上升而上升，且few shot > one shot > zero show。

从理论上讲GPT-3也是支持fine-tuning的，但是fine-tuning需要利用海量的标注数据进行训练才能获得比较好的效果，但是这样也会造成对其它未训练过的任务上表现差，所以GPT-3并没有尝试fine-tuning。

并且犹如可以看出，当我们想要线性的提升一个任务的效果时，往往需要指数级的提升模型的规模和所需的数据量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GPT-3的性能

仅仅用惊艳很难描述GPT-3的优秀表现。首先，在大量的语言模型数据集中，GPT-3超过了绝大多数的zero-shot或者few-shot的state-of-the-art方法。另外GPT-3在很多复杂的NLP任务中也超过了fine-tune之后的state-of-the-art方法，例如闭卷问答，模式解析，机器翻译等。除了这些传统的NLP任务，GPT-3在一些其他的领域也取得了非常震惊的效果，例如进行数学加法，文章生成，编写代码等。

GPT-3有什么问题？

既然 ChatGPT 是由 GPT-3 迭代过来的，那么原有的 GPT-3 究竟有哪些问题？ChatGPT 又是如何做的改进？

如果你明白了上面两个问题，那么 ChatGPT 的核心你就算真正掌握了。

GPT-3 最大的问题就是训练目标和用户意图不一致。也就是 GPT-3 并没有真正拟合用户真实的问题（prompt）。

GPT-3 本质上是语言模型，优化目标也是标准语言模型的目标，即最大化下一个词出现的概率。GPT-3 的核心技术是 Next-token-prediction 和 Masked-language-modeling。

在第一种方法中，模型被给定一个词序列作为输入，并被要求预测序列中的下一个词。如果为模型提供输入句子：

“猫坐在”

它可能会将下一个单词预测为「垫子」、「椅子」或「地板」，因为在前面的上下文中，这些单词出现的概率很高。

Masked-language-modeling 方法是 Next-token-prediction 的变体，其中输入句子中的一些词被替换为特殊 token，例如 [MASK]。然后，模型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句子：

“The [MASK] sat on the ”

它可能会预测 MASK 位置应该填的词是「cat」、「dog」。

这些目标函数的优点之一是，它允许模型学习语言的统计结构，例如常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文本，并且是每个语言模型预训练阶段的重要步骤。

然而这些目标函数也可能导致问题，这主要是因为模型无法区分重要错误和不重要错误。一个非常简单的例子是，如果给模型输入句子：

“罗马帝国[MASK]奥古斯都的统治”

它可能会预测 MASK 位置应该填入「开始于」或「结束于」，因为这两个词的出现概率都很高。

更一般地说，这些训练策略可能会导致语言模型在某些更复杂的任务中出现偏差，因为仅经过训练以预测文本序列中的下一个词（或掩码词）的模型可能不一定会学习一些其含义的更高层次的表示。因此，该模型难以泛化到需要更深入地理解语言的任务或上下文。

这也导致了 GPT-3 这样的语言模型，很难理解用户的真实意图，经常出现答非所问的情况，一本正经的胡说八道。

另外还有一些缺陷如下：

对于一些命题没有意义的问题，GPT-3不会判断命题有效与否，而是拟合一个没有意义的答案出来；
由于40TB海量数据的存在，很难保证GPT-3生成的文章不包含一些非常敏感的内容，例如种族歧视，性别歧视，宗教偏见等；
受限于transformer的建模能力，GPT-3并不能保证生成的一篇长文章或者一本书籍的连贯性，存在下文不停重复上文的问题。

人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
DeepSeek 帮助自己的工作
引言简述人工智能助手在职场中的普及趋势DeepSeek作为智能创作助手的核心功能概述DeepSeek的核心能力信息检索与整合：基于用户意图精准搜索并生成答案多场景应用：技术文档撰写、数据分析、代码生成等交互优化：遵循用户指定的格式与内容规范职场应用场景与实操案例技术文档撰写自动生成API文档框架根据需求补充技术细节示例代码块与公式的规范化输出数据分析支持快速检索行业数据并生成可视化建议数学建模中的
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
比Cursor香！字节AI编程神器Trae上线，Claude3.5+GPT4o免费用，中文开发者狂喜！东哥说AI AI应用 AI编程 AI工具 Trae Cursor Windsurf
2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器纷纷露脸，但是国外的软件多国内的中文开发者还是不够友好；国内的各个编程插件通义灵码、文心快码、豆包MarsCode也经常刷屏程序员圈，但是还是作为一个插件嵌入到IDE中使用、而非作为独立的IDE。就在1月，字节跳动终于出手了，发布了对标Cursor和Winds
大模型开源与国产化突围：技术路径与产业机遇深度解析梦玄海开源架构 golang 开发语言后端大数据
引言：大模型时代的双轨竞速2023年全球大语言模型（LLM）参数量突破万亿级，GPT-4、LLaMA等模型引领技术浪潮。中国在这场竞赛中面临双重命题：既要融入全球开源生态，又要构建自主可控的技术体系。本文将从技术架构、训练范式、生态建设三个维度，深入剖析大模型开源与国产化的突围路径。一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
人工智能-基础篇-23-智能体Agent到底是什么？怎么理解？（智能体=看+想+做） weisian151 人工智能人工智能
1、智能体是什么？想象你有一个超级聪明的小助手，它能：自己看环境（比如看到天气、听到声音、读到数据）；自己做决定（比如下雨了要关窗，电量低要去充电）；自己动手干活（比如帮你订外卖、打扫房间、开车）；越用越聪明（比如记住你的习惯，下次不用你提醒）。这个“小助手”就是智能体（Agent）——它是一个能自主感知、思考、行动并学习的系统，可以是软件（比如手机里的AI助手）、硬件（比如机器人），或者软硬结合
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
【算法】解数独：C++ 实现与策略探讨 master_chenchengg 算法提升算法 java 开发语言
【算法】解数独：C++实现与策略探讨一、引言：C++算法技术的魔力与解数独的智慧二、技术概述：数独求解的艺术定义与技术框架核心特性和优势代码示例：基础回溯解法三、技术细节：解数独的逻辑与挑战原理解析难点分析四、实战应用：从游戏到人工智能应用场景解决方案展示五、优化与改进潜在问题改进建议六、常见问题与解决方案七、总结与展望一、引言：C++算法技术的魔力与解数独的智慧在算法领域，C++凭借其高效、灵活
FastMCP：用于构建MCP服务器的开源Python框架 NetX行者 AI编程服务器开源 python
在人工智能领域，模型上下文协议（ModelContextProtocol，简称MCP）作为一种标准化的协议，为大型语言模型（LLM）提供了丰富的上下文和工具支持。而FastMCP作为构建MCP服务器和客户端的Python框架，以其简洁的API设计、高效的开发体验以及强大的扩展能力，正逐渐成为开发者们的首选工具。一、FastMCP简介FastMCP是一个用于构建MCP服务器和客户端的Python框架
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
Tansformer的Multi-Head Attention组件数字化与智能化大模型基础 Transformer框架 transformer 多头注意力机制
一、Transformer的注意力机制Transformer的注意力机制是对传统序列建模方法的颠覆性创新。它通过全局并行的关联计算解决了RNN的效率与长距离依赖瓶颈，通过动态权重和多头设计增强了模型对复杂信息的捕捉能力，最终成为现代人工智能的核心技术基石。其意义不仅在于提升了模型性能，更在于提供了一种“计算关联”的通用思路，推动了人工智能向更高效、更通用的方向发展。在Transformer之前，循
生成式人工智能实战 | 条件生成对抗网络（conditional Generative Adversarial Network, cGAN）盼小辉丶生成对抗网络神经网络深度学习生成式人工智能 pytorch
生成式人工智能实战|条件生成对抗网络0.前言1.条件生成对抗网络1.1GAN基础回顾1.2cGAN核心思想2.cGAN网络架构2.1数学原理2.2网络架构3.实现cGAN3.1环境准备与数据加载3.2模型构建3.3模型训练0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)是近年来深度学习领域最具突破性的技术之一，能够生成逼真的图像、音频甚至文本。然而，传统的G
【人工智能】Maas（模型即服务）（Model as a Service）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。本本本添哥 A -AIGC 人工智能大模型人工智能云计算
ModelasaService（模型即服务，MaaS）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。MaaS通过云原生架构和标准化服务，正在重塑AI技术的开发和消费方式，推动人工智能从“技术专有”向“普惠工具”转变。以下是其核心要点：1.定义与核心理念MaaS将大模型（如GPT-3、多模态模型等）封装为标准化服务，用户
Windows系统FastGPT安装配置依赖项遇到的问题耳双6 windows
遇到了两个问题，记录备忘一下安装Docker报错：此访问控制列表格式不规范，因此无法修改。1.使用管理员权限使用管理员权限打开cmd命令提示符窗口。2.修复文件目录权限icacls"C:\ProgramFiles\Docker"/reset/t/c/qicacls"C:\ProgramData\DockerDesktop"/reset/t/c/q然后再双击文件就能正常安装了参数解释：/reset：
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
提示词工程在实体关系抽取中的创新 AI天才研究院计算 ChatGPT AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
1.5概念结构与核心要素组成在深入探讨提示词工程在实体关系抽取中的应用之前，我们需要对其概念结构与核心要素组成有一个清晰的理解。这一部分将介绍提示词工程的基本框架，以及实体关系抽取的关键技术。提示词工程的基本框架提示词工程（PromptEngineering）是指利用人工智能技术和自然语言处理方法，设计并优化用于训练语言模型的输入提示（prompt），以达到特定任务目标的过程。其核心框架包括以下几
别再瞎摸索了！HarmonyOS AI 字幕控件用法全解析
引言现在视频、音频这些多媒体内容越来越多，用户对字幕的需求也跟着水涨船高，毕竟谁不想轻松看懂听不懂的内容呢？而且这两年人工智能技术发展得这么快，早就该用到字幕领域了——以前全靠人工打字幕，费时费力还容易出错，现在有了AI帮忙，简直是解放双手！正好HarmonyOS推出了AI字幕控件，这东西能自动识别语音、生成字幕，一下子就让视频和音频内容变得更易用了。对咱们做鸿蒙原生应用的人来说，更是省了大事儿—
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
【linux】ssh 远程执行命令自动输入密码方式檀越@新空间 s5 Linux学习 linux ssh 服务器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨博客目录一.自动输入密码二.sshpass方式1.安装sshpass2.源码下载3.安装过程4.验证三.expect方式1.脚本2.执行前些天发现了一个巨牛的人工智能
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
AlphaGPT通过国家AIGC生成式算法备案，为法律专业人士提供更加合规可靠的ai技术支持资讯分享周 AIGC 人工智能
在当前互联网信息时代,大模型算法已成各行业不可或缺的核心,不仅改善生活和工作,也在创新中展现巨大潜力。然而,随着算法应用的普及,如何合规管理算法,保护用户权益和隐私,确保公正运行,成为重要议题。日前,国内领先的法律科技企业iCourt宣布,其自主研发的法律垂类领域大模型AlphaGPT成功通过国家生成式模型深度学习合成算法备案。本次备案的通过,彰显了iCourt在法律AI领域有迈向了一个新的里程碑
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

GPT家族

Task04 GPT家族

目录

GPT-1

GPT-1的训练

无监督预训练

有监督微调

任务相关的输入变换

GPT-1的数据集

网络结构的细节

无监督训练

有监督微调

GPT-1的性能

总结

GPT-2

GPT-2的核心思想

GPT-2的数据集

模型结构

GPT-2的性能

与 GPT-1 的区别

总结

GPT-3

模型结构

数据集

下游评估方式

In-context learning

结果

GPT-3的性能

GPT-3有什么问题？

你可能感兴趣的:(gpt,人工智能,机器学习)