大模型微调实战

LLM主要类别架构

LLM主要类别架构介绍

LLM主要类别

LLM本身基于transformer架构。自2017年，attention is all you need诞生起，transformer模型为不同领域的模型提供了灵感和启发。基于原始的Transformer框架，衍生出了一系列模型，一些模型仅仅使用encoder或decoder，有些模型同时使encoder+decoder。

LLM分类一般分为三种：自编码模型（encoder）、自回归模型(decoder)和序列到序列模型(encoder-decoder)。

2 自编码模型

自编码模型 (AutoEncoder model，AE) 模型，代表作BERT，其特点为：Encoder-Only, 基本原理：是在输入中随机MASK掉一部分单词，根据上下文预测这个词。AE模型通常用于内容理解任务，比如自然语言理NLU中的分类任务：情感分析、提取式问答。

2.1 代表模型 BERT

BERT是2018年10月由Google AI研究院提出的一种预训练模型.

BERT的全称是Bidirectional Encoder Representation from Transformers.
BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类, 并且在11种不同NLP测试中创出SOTA表现. 包括将GLUE基准推高至80.4% (绝对改进7.6%), MultiNLI准确度达到86.7% (绝对改进5.6%). 成为NLP发展史上的里程碑式的模型成就.

2.1.1 BERT的架构

总体架构: BERT采用了Transformer Encoder block进行连接, 因为是一个典型的双向编码模型。

宏观上BERT分三个主要模块:

最底层黄色标记的Embedding模块.
中间层蓝色标记的Transformer模块.
最上层绿色标记的预微调模块.

2.1.2 Embedding模块

BERT中的该模块是由三种Embedding共同组成而成

Token Embeddings 是词嵌入张量, 第一个单词是CLS标志, 可以用于之后的分类任务.
Segment Embeddings 是句子分段嵌入张量, 是为了服务后续的两个句子为输入的预训练任务.
Position Embeddings 是位置编码张量, 此处注意和传统的Transformer不同, 不是三角函数计算的固定位置编码, 而是通过学习得出来的.
整个Embedding模块的输出张量就是这3个张量的直接加和结果.

2.1.3 双向Transformer模块

BERT中只使用了经典Transformer架构中的Encoder部分, 完全舍弃了Decoder部分. 而两大预训练任务也集中体现在训练Transformer模块中.

2.1.4 预微调模块

经过中间层Transformer的处理后, BERT的最后一层根据任务的不同需求而做不同的调整即可.

比如对于sequence-level的分类任务, BERT直接取第一个[CLS] token 的final hidden state, 再加一层全连接层后进行softmax来预测最终的标签.

对于不同的任务, 微调都集中在预微调模块

在面对特定任务时, 只需要对预微调层进行微调, 就可以利用Transformer强大的注意力机制来模拟很多下游任务, 并得到SOTA的结果. (句子对关系判断, 单文本主题分类, 问答任务(QA), 单句贴标签(NER))
若干可选的超参数建议如下:

代码语言：javascript

复制

Batch size: 16, 32
Learning rate (Adam): 5e-5, 3e-5, 2e-5
Epochs: 3, 4

2.1.5 BERT的预训练任务

BERT包含两个预训练任务:

任务一: Masked LM (带mask的语言模型训练)
任务二: Next Sentence Prediction (下一句话预测任务)

2.1.5.1 任务一: Masked LM

带mask的语言模型训练

关于传统的语言模型训练, 都是采用left-to-right, 或者left-to-right + right-to-left结合的方式, 但这种单向方式或者拼接的方式提取特征的能力有限. 为此BERT提出一个深度双向表达模型(deep bidirectional representation). 即采用MASK任务来训练模型.
1: 在原始训练文本中, 随机的抽取15%的token作为参与MASK任务的对象.
2: 在这些被选中的token中, 数据生成器并不是把它们全部变成[MASK], 而是有下列3种情况.
- 2.1: 在80%的概率下, 用[MASK]标记替换该token, 比如my dog is hairy -> my dog is [MASK]
- 2.2: 在10%的概率下, 用一个随机的单词替换token, 比如my dog is hairy -> my dog is apple
- 2.3: 在10%的概率下, 保持该token不变, 比如my dog is hairy -> my dog is hairy
3: 模型在训练的过程中, 并不知道它将要预测哪些单词? 哪些单词是原始的样子? 哪些单词被遮掩成了[MASK]? 哪些单词被替换成了其他单词? 正是在这样一种高度不确定的情况下, 反倒逼着模型快速学习该token的分布式上下文的语义, 尽最大努力学习原始语言说话的样子. 同时因为原始文本中只有15%的token参与了MASK操作, 并不会破坏原语言的表达能力和语言规则.

2.1.5.2 任务二: Next Sentence Prediction

下一句话预测任务

在NLP中有一类重要的问题比如QA(Quention-Answer), NLI(Natural Language Inference), 需要模型能够很好的理解两个句子之间的关系, 从而需要在模型的训练中引入对应的任务. 在BERT中引入的就是Next Sentence Prediction任务. 采用的方式是输入句子对(A, B), 模型来预测句子B是不是句子A的真实的下一句话.
1: 所有参与任务训练的语句都被选中作为句子A.
- 1.1: 其中50%的B是原始文本中真实跟随A的下一句话. (标记为IsNext, 代表正样本)
- 1.2: 其中50%的B是原始文本中随机抽取的一句话. (标记为NotNext, 代表负样本)
2: 在任务二中, BERT模型可以在测试集上取得97%-98%的准确率.

2. 1.6 数据集

BooksCorpus (800M words) + English Wikipedia (2,500M words)

2.1.7 BERT模型的特点

模型的一些关键参数为：

参数	取值
transformer 层数	12
特征维度	768
transformer head 数	12
总参数量	1.15 亿

2.2 AE模型总结

优点：

BERT使用双向transformer，在语言理解相关的任务中表现很好。

缺点：

输入噪声：BERT在预训练过程中使用【mask】符号对输入进行处理，这些符号在下游的finetune任务中永远不会出现，这会导致预训练-微调差异。而AR模型不会依赖于任何被mask的输入，因此不会遇到这类问题。
更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务

3 自回归模型

自回归模型 (Autoregressive model，AR) ，代表作GPT，其特点为：Decoder-Only，基本原理：从左往右学习的模型，只能利用上文或者下文的信息，比如：AR模型从一系列time steps中学习，并将上一步的结果作为回归模型的输入，以预测下一个time step的值。AR模型通常用于生成式任务，在长文本的生成能力很强，比如自然语言生成NLG领域的任务：摘要、翻译或抽象问答。

3.1 代表模型 GPT

2018年6月, OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力》, 推出了具有1.17亿个参数的GPT（Generative Pre-training , 生成式预训练）模型.

与BERT最大的区别在于GPT采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词.正是因为训练方法上的区别, 使得GPT更擅长处理自然语言生成任务(NLG), 而BERT更擅长处理自然语言理解任务(NLU).

3.1.1 GPT模型架构

GPT采用的是单向Transformer模型, 例如给定一个句子[u1, u2, …, un], GPT在预测单词ui的时候只会利用[u1, u2, …, u(i-1)]的信息, 而BERT会同时利用上下文的信息[u1, u2, …, u(i-1), u(i+1), …, un]
作为两大模型的直接对比, BERT采用了Transformer的Encoder模块, 而GPT采用了Transformer的Decoder模块. 并且GPT的Decoder Block和经典Transformer Decoder Block还有所不同
经典的Transformer Decoder Block包含3个子层, 分别是Masked Multi-Head Attention层, encoder-decoder attention层, 以及Feed Forward层. 但是在GPT中取消了第二个encoder-decoder attention子层, 只保留Masked Multi-Head Attention层, 和Feed Forward层
注意: 对比于经典的Transformer架构, 解码器模块采用了6个Decoder Block; GPT的架构中采用了12个Decoder Block

3.1.2 GPT训练过程

GPT的训练包括两阶段过程: 预训练 + 微调

第一阶段: 无监督的预训练语言模型.
第二阶段: 有监督的下游任务fine-tunning.

3.1.2.1 无监督的预训练语言模型

给定句子U = [u1, u2, …, un], GPT训练语言模型时的目标是最大化下面的似然函数:

L1(U)=∑ilogP(ui|ui−k,⋯,ui−1;Θ)

上述公式具体来说是要预测每个词ui的概率，这个概率是基于它前面 ui-k 到 ui−1 个词，以及模型 Θ。这里的 k 表示上文的窗口大小，理论上来讲 k 取的越大，模型所能获取的上文信息越充足，模型的能力越强。
GPT是一个单向语言模型,模型对输入U 进行特征嵌入得到 transformer 第一层的输h0，再经过多层 transformer 特征编码，使用最后一层的输出即可得到当前预测的概率分布，计算过程如下：

h0=UWe+Wp

其中Wp是单词的位置编码, We是单词本身的word embedding. Wp的形状是[max_seq_len, embedding_dim], We的形状是[vocab_size, embedding_dim].

得到输入张量h0后, 要将h0传入GPT的Decoder Block中, 依次得到ht:

ht=transformer_block(hl−1)l∈[1,t]

最后通过得到的ht来预测下一个单词:

P(u)=softmax(htWTe)

3.1.2.2 有监督的下游任务fine-tunning

GPT经过预训练后, 会针对具体的下游任务对模型进行微调. 微调采用的是有监督学习, 训练样本包括单词序列[x1, x2, …, xn]和label y. GPT微调的目标任务是根据单词序列[x1, x2, …, xn]预测标签y.

P(y|x1,⋯,xm)=softmax(hmlWy)

其中

表示预测输出的矩阵参数, 微调任务的目标是最大化下面的函数:

L2=∑(x,y)logP(y|x1,⋯,xm)

综合两个阶段的目标任务函数, 可知GPT的最终优化函数为:

L3=L2+λL1

3.1.2.3 整体训练过程架构图

根据下游任务适配的过程分两步: 1、根据任务定义不同输入, 2、对不同任务增加不同的分类层.

分类任务（Classification）: 将起始和终止token加入到原始序列两端, 输入transformer中得到特征向量, 最后经过一个全连接得到预测的概率分布；
文本蕴涵（Entailment）: 将前提（premise）和假设（hypothesis）通过分隔符（Delimiter）隔开, 两端加上起始和终止token. 再依次通过transformer和全连接得到预测结果；
文本相似度（Similarity）: 输入的两个句子, 正向和反向各拼接一次, 然后分别输入给transformer, 得到的特征向量拼接后再送给全连接得到预测结果；
问答和常识推理（Multiple-Choice）: 将 N个选项的问题抽象化为N个二分类问题, 即每个选项分别和内容进行拼接, 然后各送入transformer和全连接中, 最后选择置信度最高的作为预测结果

总的来说，都是通过在序列前后添加 Start 和 Extract 特殊标识符来表示开始和结束，序列之间添加必要的 Delim 标识符来表示分隔，当然实际使用时不会直接用 “Start/Extract/Delim” 这几个词，而是使用某些特殊符号。基于不同下游任务构造的输入序列，使用预训练的 GPT 模型进行特征编码，然后使用序列最后一个 token 的特征向量进行预测。

不论下游任务的输入序列怎么变，最后的预测层怎么变，中间的特征抽取模块都是不变的，具有很好的迁移能力。

3.1.3 GPT数据集

GPT使用了BooksCorpus数据集, 文本大小约 5 GB，包含 7400w+ 的句子。这个数据集由 7000 本独立的、不同风格类型的书籍组成, 选择该部分数据集的原因:

书籍文本包含大量高质量长句，保证模型学习长距离信息依赖。
这些书籍因为没有发布, 所以很难在下游数据集上见到, 更能验证模型的泛化能力.

3.1.4 GPT模型的特点

模型的一些关键参数为：

参数	取值
transformer 层数	12
特征维度	768
transformer head 数	12
总参数量	1.17 亿

3.2 AR模型总结

优点：

AR模型擅长生成式NLP任务。AR模型使用注意力机制，预测下一个token，因此自然适用于文本生成。此外，AR模型可以简单地将训练目标设置为预测语料库中的下一个token，因此生成数据相对容易。

缺点：

AR模型只能用于前向或者后向建模，不能同时使用双向的上下文信息，不能完全捕捉token的内在联系。

4 序列到序列

序列到序列模型（Sequence to Sequence Model）同时使用编码器和解码器。它将每个task视作序列到序列的转换/生成（比如，文本到文本，文本到图像或者图像到文本的多模态任务）。对于文本分类任务来说，编码器将文本作为输入，解码器生成文本标签。Encoder-decoder模型通常用于需要内容理解和生成的任务，比如机器翻译。

4.1. 代表模型T5

T5 由谷歌的 Raffel 等人于 2020年7月提出，相关论文为“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”. 该模型的目的为构建任务统一框架：将所有NLP任务都视为文本转换任务。

比如英德翻译，只需将训练数据集的输入部分前加上“translate English to German（给我从英语翻译成德语）” 就行。假设需要翻译"That is good"，那么先转换成 “translate English to German：That is good.” 输入模型，之后就可以直接输出德语翻译 “Das ist gut.”。对于需要输出连续值的 STS-B（文本语义相似度任务），也是直接输出文本。

通过这样的方式就能将 NLP 任务都转换成 Text-to-Text 形式，也就可以用同样的模型，同样的损失函数，同样的训练过程，同样的解码过程来完成所有 NLP 任务。

4.1.1 T5模型架构

T5模型结构与原始的Transformer基本一致,除了做了以下几点改动：

作者采用了一种简化版的Layer Normalization，去除了Layer Norm 的bias；将Layer Norm放在残差连接外面。
位置编码：T5使用了一种简化版的相对位置编码，即每个位置编码都是一个标量，被加到 logits 上用于计算注意力权重。各层共享位置编码，但是在同一层内，不同的注意力头的位置编码都是独立学习的。一定数量的位置Embedding，每一个对应一个可能的 key-query 位置差。作者学习了32个Embedding，至多适用于长度为128的位置差，超过位置差的位置编码都使用相同的Embedding。

4.1.2 T5 训练过程

自监督预训练：采用类似于BERT模型的MLM预训练任务。

多任务预训练：除了使用大规模数据进行无监督预训练，T5模型还可以利用不同任务的标注数据进行有监督的多任务预训练，例如SQuAD问答和机器翻译等任务。

4.1.3 T5数据集

作者对公开爬取的网页数据集Common Crawl进行了过滤，去掉一些重复的、低质量的，看着像代码的文本等，并且最后只保留英文文本，得到数据集C4: the Colossal Clean Crawled Corpus。

4.1.4 T5模型的特点

模型的一些关键参数为：

参数	取值
transformer 层数	24
特征维度	768
transformer head 数	12
总参数量	2.2 亿

4.2. encoder-decoder模型总结

优点：

T5模型可以处理多种NLP任务，并且可以通过微调来适应不同的应用场景，具有良好的可扩展性；相比其他语言生成模型（如GPT-2、GPT3等），T5模型的参数数量相对较少，训练速度更快，且可以在相对较小的数据集上进行训练。

缺点：

由于T5模型使用了大量的Transformer结构，在训练时需要大量的计算资源和时间; 模型的可解释性不足。

5 目前大模型主流模型架构-Decoder-only

LLM之所以主要都用Decoder-only架构，除了训练效率和工程实现上的优势外，在理论上是因为Encoder的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。

小结

LLM的主要类别架构：自回归模型、自编码模型和序列到序列模型。
不同类型架构的代表模型：BERT、GPT、T5等相关模型。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

有需要的小伙伴，可以VＸ扫描下方二维码免费领取

1.大模型入门学习思维导图

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）

2.AGI大模型配套视频

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

3.大模型实际应用报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

4.大模型落地应用案例PPT

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

5.大模型经典学习电子书

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

6.大模型面试题&答案

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

学会后的收获：
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

有需要的小伙伴，可以Vx扫描下方二维码免费领取

Chrome下载视频的插件爱编程的喵喵 Windows实用技巧 windows chrome 下载视频
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome下载视频的插件，希望能对
Java 中 VO、POJO、DTO 的区别详解 ♢.＊ java 开发语言
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在Java开发的广阔领域中，准确理解和
书籍-《人工智能：原理与实践》人工智能机器学习深度学习
书籍：ArtificialIntelligence:PrinciplesandPractice作者：GeorgeLuger出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《人工智能：原理与实践》01书籍介绍本书全面介绍了人工智能（AI），涵盖了理解AI所需的基础计算技术、数学原理、哲学思考以及工程学科。《人工智能：原理与实践》强调了AI的跨学科性质，整合了心理学、数学、神
医院信息科医疗语言大模型开发的风险洞察与避坑策略 Allen_LVyingbo 医疗高效编程研发健康医疗人工智能互联网医院 python 开源
一、引言1.1研究背景与意义在数字化医疗快速发展的当下，医疗AI技术已成为推动医疗行业变革的核心力量。其中，医疗语言大模型作为自然语言处理技术在医疗领域的深度应用，正逐渐改变着医疗服务的模式与效率。从辅助医生进行疾病诊断、提供临床决策支持，到助力医学文献分析、药物研发等，医疗语言大模型展现出了巨大的应用潜力。例如，在疾病诊断环节，大语言模型可以通过对患者症状、病史等文本信息的分析，快速给出可能的疾
王坚院士谈算力革命，“对年轻人要足够地致敬” datawhale
DatawhaleDatawhale分享央视新闻，面对面：王坚院士来源：央视新闻，仅用于学术分享。**Datawhale整理了采访全文，供大家阅读。主持人：作为政协委员，今年您的提案里面会侧重于什么问题？王坚院士：我想我们今天讲的这个技术变革也好，特别是讲到人工智能也好，确实是一个时代的变革，是一个百年未遇的科技变革的时候。所以我今天比较关心的是人工智能+，我们怎么能有一些机制上的创新。王坚，全国
新手指南：Claude 3.7 Sonnet国内使用教程_claude 3.7国内怎么用,1分钟学会 claude
Claude3.7Sonnet是Anthropic公司发布的一款先进的人工智能对话模型，属于Claude系列的第三代产品。Claude3.7是Claude3.5的更新版本，它不仅继承了前代的强大功能，还在理解能力和生成能力上进行了全面的优化。Claude的命名灵感来源于信息理论的奠基人ClaudeShannon，作为现代信息技术的先驱，Shannon的名字象征着“智慧”和“创新”，也完美匹配了Cl
树莓集团董事长谋略：构建全国第五代产业园的智慧树莓集团百度创业创新大数据物联网科技
树莓集团董事长以其高瞻远瞩的谋略，致力于构建全国第五代产业园，展现出非凡的智慧。在规划理念上，董事长突破传统产业园的模式，将第五代产业园定位为“智慧、绿色、创新、融合”的综合性园区。在智慧方面，引入物联网、大数据、人工智能等先进技术，实现园区的智能化管理。例如，通过智能传感器实时监测园区内的能源消耗、环境质量等数据，进行智能化调控，提高园区的运营效率和管理水平。在绿色发展方面，董事长注重可持续发展
揭秘树莓集团幕后老板，如何屡创商业奇迹树莓集团大数据物联网创业创新人工智能科技
树莓集团幕后老板以其卓越的商业智慧和独特的领导能力，屡创商业奇迹。树莓集团的老板具备敏锐的市场洞察力。在数字产业发展初期，就精准地捕捉到了数字经济的发展趋势，果断布局数字技术研发、投资和服务等业务领域。当人工智能技术刚刚兴起时，老板就意识到其巨大的商业潜力，提前加大在该领域的研发投入，使得树莓集团在数字技术方面走在行业前列。在企业战略规划方面，老板展现出了非凡的远见。制定了长期的发展战略，注重产业
树莓集团现状最新进展：宜宾园区业务再添新篇树莓集团百度人工智能科技大数据媒体
树莓集团在不断发展的进程中，宜宾园区传来了最新进展，业务再添新篇。近期，树莓集团宜宾园区在人工智能领域取得了重大突破。园区内的研发团队成功研发出一款适用于工业检测的人工智能视觉系统。该系统利用深度学习算法，能够快速、准确地检测出工业产品表面的细微缺陷，检测精度比传统检测方法提高了30%。这一成果不仅提升了宜宾园区在智能制造领域的竞争力，还为当地的制造业企业提供了更先进的质量检测手段。目前，已有多家
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
AI大模型市场分析，大模型未来可期程序员辣条人工智能大模型入门大模型产品经理大模型学习大模型教程学习
随着人工智能技术的快速发展，AI模型已成为全球科技竞争的新高地、未来产业的新赛道以及经济发展的新引擎。下面，AI部落小编分析了当前AI模型市场。AI模型市场的现状AI模型市场近年来经历了快速的增长，特别是在语言大模型的引领下，模型的创新、算力的跃升以及应用的爆发式增长共同推动了市场的繁荣。AI模型市场的主要驱动力政策支持：近年来，我国高度重视人工智能发展机遇和顶层设计，发布多项人工智能支持政策。技
探索AGI：谷歌开源的先进智能系统框架劳泉文Luna
探索AGI：谷歌开源的先进智能系统框架agiAndroidGPUInspector项目地址:https://gitcode.com/gh_mirrors/ag/agiAGI（ArtificialGeneralIntelligence）是谷歌开源的一个项目，旨在构建一个可广泛应用的、先进的智能系统框架。这个项目的目的是为开发者提供一个平台，用于研究和开发具有广泛理解和适应能力的人工智能模型。技术分析
程序员未来黄金赛道：AI与大模型引领职业新机遇 AI学习不迷路人工智能大模型自然语言处理 LLM 程序员 AI大模型转行
2025年，人工智能（AI）与大型机器学习模型（LLM）的爆发式发展正重塑技术行业格局。面对AI编程工具日益强大的代码生成能力，程序员的职业角色面临深刻转型。如何在这场变革中抢占先机？本文结合行业趋势与专家洞察，解析程序员未来的核心出路。一、拥抱AI与新兴技术：从“编码者”到“解决方案架构师”AI大模型工程师：随着GPT、通义灵码等代码生成工具普及，程序员的角色正从基础编码转向模型调优与场景化应用
神经网络之CNN文本识别邪恶的贝利亚神经网络 cnn 人工智能
1.参考我的第一篇文章了解CNN概念神经网络之CNN图像识别(torchapi调用)-CSDN博客2.框架目前对NLP的研究分析应用最多的就是RNN系列的框架，比如RNN,GRU,LSTM等等，再加上Attention，基本可以认为是NLP的标配套餐了。但是在文本分类问题上，相比于RNN，CNN的构建和训练更为简单和快速，并且效果也不差，所以仍然会有一些研究。那么，CNN到底是怎么应用到NLP上的
python数据分析入门与实战王静_Keras快速上手：基于Python的深度学习实战 weixin_39724362
1准备深度学习的环境11.1硬件环境的搭建和配置选择.........................11.1.1通用图形处理单元..........................31.1.2你需要什么样的GPU加速卡....................61.1.3你的GPU需要多少内存.......................61.1.4是否应该用多个GPU..............
PyTorch RuntimeError: 张量 a 的大小必须与张量 b 的大小在非单例维度上匹配 PzBlockchain pytorch 人工智能 python 机器学习-深度学习
在使用PyTorch进行深度学习模型开发时，经常会遇到各种错误和异常。其中一个常见的错误是RuntimeError。这篇文章将详细介绍其中一个特定的RuntimeError，即“Thesizeoftensoramustmatchthesizeoftensorbatnon-singletondimension”错误。我们将讨论这个错误的原因，并提供一些解决方案。错误信息解读：错误信息“Thesize
开源AI网络爬虫工具Crawl4AI m0_74823983 面试学习路线阿里巴巴人工智能爬虫
引言在信息化时代，网络爬虫作为从互联网中提取信息的重要工具，扮演着至关重要的角色。Crawl4AI作为一款开源AI网络爬虫工具，凭借其功能强大和易用性，受到了广泛关注。本文将详细探讨Crawl4AI的定义、特点、优势，以及其具体使用和效果。一、Crawl4AI是什么？1.1定义与背景Crawl4AI是一款开源的网络爬虫框架，旨在利用人工智能技术，从互联网上自动抓取并分析数据。它不仅能处理常规的网页
ES: 机器学习、专家系统、控制系统的数学映射 wishchin AI/ES
一、基本定义1.机器学习维基定义：机器学习有下面几种定义：“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”一种经常引用的英文定义是：AcomputerprogramissaidtolearnfromexperienceEw
人工智能入门系列：探索专家系统 Kingdeguo 人工智能人工智能智能体专家系统 AI 入门
人工智能入门系列：探索专家系统欢迎来到我们的人工智能入门系列！在本篇文章中，我们将向您介绍人工智能领域中的一个重要概念——专家系统。作为一个初学者，您可能对人工智能和编程不太熟悉，但不用担心，我将用简单易懂的语言和生动的例子来帮助您理解专家系统的核心概念。什么是专家系统？专家系统是一种基于规则和知识的计算机程序，它旨在模拟人类专家在特定领域中的决策和问题解决能力。背后的核心思想是将专家的知识和经验
MoneyPrinterTurbo：一键生成短视频的AI神器 Devil、Feng AI
MoneyPrinterTurbo：一键生成短视频的AI神器在数字化内容创作领域，视频已成为最受欢迎的媒介之一。然而，制作一部高质量的短视频不仅需要创意，还需要大量的时间和精力。幸运的是，随着人工智能技术的发展，现在有了MoneyPrinterTurbo——一款能够自动化视频创作的开源工具，它让视频制作变得前所未有的简单。什么是MoneyPrinterTurbo？MoneyPrinterTurbo
Word2Vec的使用，一些思考，含示例——包括使用预训练Word2Vec模型和自训练Word2Vec模型热爱生活的猴子 NLP_自然语言处理 word2vec 人工智能自然语言处理
词嵌入模型（WordEmbeddings）——Word2Vec简介：Word2Vec是由Google团队提出的一种词嵌入方法，通过神经网络模型将词语映射到一个低维的连续向量空间中。你可以直接通过它训练生成词向量，也就是一个新的Word2Vec，也可以使用预训练好的词向量，也就是那里直接用。它有两种模型结构：CBOW（ContinuousBagofWords）和Skip-Gram。CBOW（连续词袋
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
AI写作助手哪家强？综合对比就数它！BKAI 人工智能
AI写作助手哪家强？综合对比就数它！BKAI在人工智能的迅速发展中，AI写作助手已成为许多专业人士和创作者的重要工具。它们能够极大地提升写作效率和文本质量。然而，面对市场上众多的AI写作助手，如何选择最适合自己的工具？AI写作助手的关键功能AI写作助手的核心功能包括文本生成、校对编辑、风格优化和创意生成。以下是这些功能的详细介绍：文本生成：AI写作助手能够根据用户输入的主题或关键词生成文章、报告、
AI大模型教程入门到精通，非常详细收藏我这一篇就够了！AI大模型零基础入门教程（适合小白） AGI大模型学习人工智能大模型应用大模型 AI产品经理学习 AI大模型大模型教程
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
LangChain入门---- Prompt 快乐小狗(成功上岸版 LangChain入门 langchain prompt 机器学习人工智能
Prompt介绍LangChain中的“Prompt”是一个关键概念，指的是输入给大型语言模型（LLM）的文本指令或提示，用于引导模型生成特定的输出或执行特定的任务。在LangChain的框架中，prompt的设计和使用对于构建高效、准确的链式应用至关重要。Prompt的应用场景任务定义：通过精心设计的prompt，可以明确告诉LLM要执行什么任务。例如：对于问答系统，prompt可能包含问题文本
DiNN学习笔记1-理论部分瓜皮37 同态加密密码学信息安全神经网络
DiNN学习笔记1-理论部分背景知识机器学习即服务MLaaS中的全同态加密神经网络Fhe-DiNN中的默认设定Fhe-DiNN方案神经元中的计算离散神经网络DiNN评估步骤自举的引入激活函数的同态评估对TFHE的改进明文的打包密钥转换的前置动态变化的消息空间优化盲旋步骤DiNN方案的整体流程参考资料背景知识机器学习即服务机器学习即服务(MachineLearningasaService,MLaaS
大模型算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
介绍：大模型算法工程师是指在开发和部署复杂的机器学习模型、深度学习模型或其他大规模模型的专业人员。他们的主要职责和技能要求包括：职责：设计、开发和优化大规模机器学习或深度学习模型，解决复杂的业务问题。负责整个模型开发生命周期，包括数据清洗、特征工程、模型选择、训练和部署。与数据科学家、工程团队和产品团队合作，理解业务需求并将算法转化为实际产品。对模型性能进行评估和优化，确保模型的准确性、效率和可扩
图像算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
01.图像算法图像算法工程师的技术图谱和学习路径涵盖了多个技术领域，从基础知识到高级算法，涉及计算机视觉、深度学习、图像处理、数学和编程等多个方面。以下是图像算法工程师的技术图谱和学习路径的详细总结。1.基础数学与编程数学基础：线性代数：矩阵运算、特征值、特征向量、奇异值分解（SVD）等概率论与统计：概率分布、贝叶斯定理、最大似然估计（MLE）、假设检验等微积分：导数、梯度、最优化方法（梯度下降、
【期刊】【Engineering Applications of Artificial Intelligence】【人工智能的工程应用】资源存储库期刊人工智能
https://www.sciencedirect.com/search?qs=train%20energy&pub=Engineering%20Applications%20of%20Artificial%20Intelligence&cid=2710951Aimsandscope目标和范围TheInternationalJournalofIntelligentReal-TimeAutomati
2024年工信部人工智能应用工程师含金量怎么样？证书用途有哪些泰迪智能科技01 人工智能职业技术培训人工智能
工业和信息化部介绍中华人民共和国工业和信息化部（简称：工业和信息化部，工信部），是根据2008年3月11日公布的国务院机构改革方案，组建的国务院组成部门。1、“职业能力水平评价”是不是工信部组织的考试？证书的用途是什么？“职业能力水平评价”是中心与合作机构开展的评价考试项目，由中心人才评价处负责组织实施。“职业能力水平评价”主要为提升工业和信息化领域技术技能人员的职业能力，增强其就业竞争力;“学员
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY NODEXY@2014.8.12 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

LLM主要类别架构

LLM主要类别架构介绍

LLM主要类别

2 自编码模型

2.1 代表模型 BERT

2.1.1 BERT的架构

2.1.2 Embedding模块

2.1.3 双向Transformer模块

2.1.4 预微调模块

2.1.5 BERT的预训练任务

2.1.5.1 任务一: Masked LM

2.1.5.2 任务二: Next Sentence Prediction

2. 1.6 数据集

2.1.7 BERT模型的特点

2.2 AE模型总结

3 自回归模型

3.1 代表模型 GPT

3.1.1 GPT模型架构

3.1.2 GPT训练过程

3.1.2.1 无监督的预训练语言模型

3.1.2.2 有监督的下游任务fine-tunning

3.1.2.3 整体训练过程架构图

3.1.3 GPT数据集

3.1.4 GPT模型的特点

3.2 AR模型总结

4 序列到序列

4.1. 代表模型T5

4.1.1 T5模型架构

4.1.2 T5 训练过程

4.1.3 T5数据集

4.1.4 T5模型的特点

4.2. encoder-decoder模型总结

5 目前大模型主流模型架构-Decoder-only

小结

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

1.大模型入门学习思维导图

2.AGI大模型配套视频

3.大模型实际应用报告合集

4.大模型落地应用案例PPT

5.大模型经典学习电子书

6.大模型面试题&答案

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

你可能感兴趣的:(人工智能,langchain,自然语言处理,神经网络,深度学习)

如何学习AI大模型？

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】