郭畅小渣渣

BERT |（2）BERT的原理详解

在写这一篇的时候，偶然发现有一篇博客，相比于我之前的一篇写得更详尽，这一篇也参考这篇博客来继续写写自己的笔记总结。

原博客地址：一文读懂BERT(原理篇)

一、什么是Bert？

二，bert的原理

从创新的角度来看，bert其实并没有过多的结构方面的创新点，其和GPT一样均是采用的transformer的结构，相对于GPT来说，其是双向结构的，而GPT是单向的，如下图所示

elmo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定的符合我们特定的任务，是一种双向的特征提取。

openai gpt就做了一个改进，也是通过transformer学习出来一个语言模型，不是固定的，通过任务 fine-tuning,用transfomer代替elmo的lstm。
openai gpt其实就是缺少了encoder的transformer。当然也没了encoder与decoder之间的attention。

openAI gpt虽然可以进行fine-tuning,但是有些特殊任务与pretraining输入有出入，单个句子与两个句子不一致的情况，很难解决，还有就是decoder只能看到前面的信息。
其次bert在多方面的nlp任务变现来看效果都较好，具备较强的泛化能力，对于特定的任务只需要添加一个输出层来进行fine-tuning即可。

结构

先看下bert的内部结构，官网最开始提供了两个版本，L表示的是transformer的层数，H表示输出的维度，A表示mutil-head attention的个数

如今已经增加了多个模型，中文是其中唯一一个非英语的模型。

从模型的层数来说其实已经很大了，但是由于transformer的残差（residual）模块，层数并不会引起梯度消失等问题，但是并不代表层数越多效果越好，有论点认为低层偏向于语法特征学习，高层偏向于语义特征学习。

预训练模型

首先我们要了解一下什么是预训练模型，举个例子，假设我们有大量的维基百科数据，那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型，当我们需要在特定场景使用时，例如做文本相似度计算，那么，只需要简单的修改一些输出层，再用我们自己的数据进行一个增量训练，对权重进行一个轻微的调整。

预训练的好处在于在特定场景使用时不需要用大量的语料来进行训练，节约时间效率高效，bert就是这样的一个泛化能力较强的预训练模型。

BERT的预训练过程

接下来我们看看BERT的预训练过程，BERT的预训练阶段包括两个任务，一个是Masked Language Model，还有一个是Next Sentence Prediction。

Masked Language Model

MLM可以理解为完形填空，作者会随机mask每一个句子中15%的词，用其上下文来做预测，例如：my dog is hairy → my dog is [MASK]

此处将hairy进行了mask处理，然后采用非监督学习的方法预测mask位置的词是什么，但是该方法有一个问题，因为是mask15%的词，其数量已经很高了，这样就会导致某些词在fine-tuning阶段从未见过，为了解决这个问题，作者做了如下的处理：

80%的时间是采用[mask]，my dog is hairy → my dog is [MASK]
10%的时间是随机取一个词来代替mask的词，my dog is hairy -> my dog is apple
10%的时间保持不变，my dog is hairy -> my dog is hairy

那么为啥要以一定的概率使用随机词呢？这是因为transformer要保持对每个输入token分布式的表征，否则Transformer很可能会记住这个[MASK]就是"hairy"。至于使用随机词带来的负面影响，文章中解释说,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率，其影响是可以忽略不计的。Transformer全局的可视，又增加了信息的获取，但是不让模型获取全量信息。
注意：

有参数dupe_factor决定数据duplicate的次数。
其中，create_instance_from_document函数，是构造了一个sentence-pair的样本。对每一句，先生成[CLS]+A+[SEP]+B+[SEP]，有长（0.9）有短（0.1），再加上mask，然后做成样本类object。
create_masked_lm_predictions函数返回的tokens是已经被遮挡词替换之后的tokens
masked_lm_labels则是遮挡词对应位置真实的label。

Next Sentence Prediction

选择一些句子对A与B，其中50%的数据B是A的下一条句子，剩余50%的数据B是语料库中随机选择的，学习其中的相关性，添加这样的预训练的目的是目前很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系，从而能让预训练的模型更好的适应这样的任务。
个人理解：

Bert先是用Mask来提高视野范围的信息获取量，增加duplicate再随机Mask，这样跟RNN类方法依次训练预测没什么区别了除了mask不同位置外；
全局视野极大地降低了学习的难度，然后再用A+B/C来作为样本，这样每条样本都有50%的概率看到一半左右的噪声；
但直接学习Mask A+B/C是没法学习的，因为不知道哪些是噪声，所以又加上next_sentence预测任务，与MLM同时进行训练，这样用next来辅助模型对噪声/非噪声的辨识，用MLM来完成语义的大部分的学习。

输入

bert的输入可以是单一的一个句子或者是句子对，实际的输入值是segment embedding与position embedding相加，具体的操作流程可参考transformer讲解。

BERT的输入词向量是三个向量之和：

Token Embedding：WordPiece tokenization subword词向量。
Segment Embedding：表明这个词属于哪个句子（NSP需要两个句子）。
Position Embedding：学习出来的embedding向量。这与Transformer不同，Transformer中是预先设定好的值。

三、如何使用bert

四、BERT的总结和优缺点

BERT适用场景

第一，如果NLP任务偏向在语言本身中就包含答案，而不特别依赖文本外的其它特征，往往应用Bert能够极大提升应用效果。典型的任务比如QA和阅读理解，正确答案更偏向对语言的理解程度，理解能力越强，解决得越好，不太依赖语言之外的一些判断因素，所以效果提升就特别明显。反过来说，对于某些任务，除了文本类特征外，其它特征也很关键，比如搜索的用户行为／链接分析／内容质量等也非常重要，所以Bert的优势可能就不太容易发挥出来。再比如，推荐系统也是类似的道理，Bert可能只能对于文本内容编码有帮助，其它的用户行为类特征，不太容易融入Bert中。

第二，Bert特别适合解决句子或者段落的匹配类任务。就是说，Bert特别适合用来解决判断句子关系类问题，这是相对单文本分类任务和序列标注等其它典型NLP任务来说的，很多实验结果表明了这一点。而其中的原因，我觉得很可能主要有两个，一个原因是：很可能是因为Bert在预训练阶段增加了Next Sentence Prediction任务，所以能够在预训练阶段学会一些句间关系的知识，而如果下游任务正好涉及到句间关系判断，就特别吻合Bert本身的长处，于是效果就特别明显。第二个可能的原因是：因为Self Attention机制自带句子A中单词和句子B中任意单词的Attention效果，而这种细粒度的匹配对于句子匹配类的任务尤其重要，所以Transformer的本质特性也决定了它特别适合解决这类任务。

从上面这个Bert的擅长处理句间关系类任务的特性，我们可以继续推理出以下观点：

既然预训练阶段增加了Next Sentence Prediction任务，就能对下游类似性质任务有较好促进作用，那么是否可以继续在预训练阶段加入其它的新的辅助任务？而这个辅助任务如果具备一定通用性，可能会对一类的下游任务效果有直接促进作用。这也是一个很有意思的探索方向，当然，这种方向因为要动Bert的第一个预训练阶段，所以属于NLP届土豪们的工作范畴，穷人们还是散退、旁观、鼓掌、叫好为妙。

第三，Bert的适用场景，与NLP任务对深层语义特征的需求程度有关。感觉越是需要深层语义特征的任务，越适合利用Bert来解决；而对有些NLP任务来说，浅层的特征即可解决问题，典型的浅层特征性任务比如分词，POS词性标注，NER，文本分类等任务，这种类型的任务，只需要较短的上下文，以及浅层的非语义的特征，貌似就可以较好地解决问题，所以Bert能够发挥作用的余地就不太大，有点杀鸡用牛刀，有力使不出来的感觉。

这很可能是因为Transformer层深比较深，所以可以逐层捕获不同层级不同深度的特征。于是，对于需要语义特征的问题和任务，Bert这种深度捕获各种特征的能力越容易发挥出来，而浅层的任务，比如分词／文本分类这种任务，也许传统方法就能解决得比较好，因为任务特性决定了，要解决好它，不太需要深层特征。

第四，Bert比较适合解决输入长度不太长的NLP任务，而输入比较长的任务，典型的比如文档级别的任务，Bert解决起来可能就不太好。主要原因在于：Transformer的self attention机制因为要对任意两个单词做attention计算，所以时间复杂度是n平方，n是输入的长度。如果输入长度比较长，Transformer的训练和推理速度掉得比较厉害，于是，这点约束了Bert的输入长度不能太长。所以对于输入长一些的文档级别的任务，Bert就不容易解决好。结论是：Bert更适合解决句子级别或者段落级别的NLP任务。

总结下BERT的主要贡献：

引入了Masked LM，使用双向LM做模型预训练。
为预训练引入了新目标NSP，它可以学习句子与句子间的关系。
进一步验证了更大的模型效果更好： 12 --> 24 层。
为下游任务引入了很通用的求解框架，不再为任务做模型定制。
刷新了多项NLP任务的记录，引爆了NLP无监督预训练技术。

BERT是谷歌团队糅合目前已有的NLP知识集大成者，刷新11条赛道彰显了无与伦比的实力，且极容易被用于多种NLP任务。宛若一束烟花点亮在所有NLP从业者心中。更为可贵的是谷歌选择了开源这些，让所有从业者看到了在各行各业落地的更多可能性。

BERT优点

Transformer Encoder因为有Self-attention机制，因此BERT自带双向功能
因为双向功能以及多层Self-attention机制的影响，使得BERT必须使用Cloze版的语言模型Masked-LM来完成token级别的预训练
为了获取比词更高级别的句子级别的语义表征，BERT加入了Next Sentence Prediction来和Masked-LM一起做联合训练
为了适配多任务下的迁移学习，BERT设计了更通用的输入层和输出层
微调成本小

BERT缺点

task1的随机遮挡策略略显粗犷，推荐阅读《Data Nosing As Smoothing In Neural Network Language Models》
[MASK]标记在实际预测中不会出现，训练时用过多[MASK]影响模型表现;
每个batch只有15%的token被预测，所以BERT收敛得比left-to-right模型要慢（它们会预测每个token）
BERT对硬件资源的消耗巨大（大模型需要16个tpu，历时四天；更大的模型需要64个tpu，历时四天。
关于BERT最新的各领域应用推荐张俊林的Bert时代的创新（应用篇）

思考

个人并不认为文章是模型的改进，更认可为任务的设计改进。
论文作者只比较了有没有task1的影响，并没有针对task2对比试验。提升是否来自好的预训练任务设计没有明说。
bert对nlp领域目前已有知识的有效“整合”，在硬件配置足够的情况下能提高nlp多领域性能

FTTR（Fiber to the Room）一主一从
FTTR（FibertotheRoom）一主一从是家庭或企业光纤组网中的一种设备配置方式，具体含义如下：1.基本概念FTTR：指光纤直接延伸到每个房间（替代传统网线），实现全屋千兆/万兆覆盖。一主一从：由一台主光猫（主网关）和一台从光猫（从网关）组成的网络架构，通过光纤连接，形成主从协作的网络系统。2.主设备和从设备的作用主光猫（主网关）直接连接运营商的光纤入户线路，负责拨号、路由、Wi-Fi覆盖
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
【网络安全】网络安全中的离散数学 flyair_China 安全架构
一、离散数学核心知识点与网络安全映射1.数论（NumberTheory）知识点安全应用场景实例说明质因数分解RSA公钥加密大整数分解难题（2048位密钥需数万年破解）模运算Diffie-Hellman密钥交换利用(gamodp)实现安全协商欧拉定理RSA加密/解密me*d≡m(modn)保障解密还原中国剩余定理高效解密优化RSA-CRT加速解密运算达70%2.代数结构（AlgebraicStruc
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
【面试宝典】【大模型入门】【模型微调】曾小文人工智能深度学习机器学习
面试热点科普：监督微调vs无监督微调，有啥不一样？在大模型时代（比如BERT、GPT）里，我们经常听到“预训练+微调”的范式。但你可能会疑惑——监督微调、无监督微调，到底有啥区别？用的场景一样吗？今天这篇，带你5分钟搞懂这对“孪生兄弟”的异同✅1.术语定义名称定义说明预训练（Pretraining）在大规模通用数据上训练模型，学习“通用知识”，比如语言规律、语义表示。微调（Fine-tuning）
中文工单分类模型选择 SugarPPig 人工智能分类人工智能数据挖掘
采用基于预训练模型的微调（Fine-tuning）方案来做中文工单分类，这是非常明智的选择，因为预训练模型已经在大量中文语料上学习了丰富的语言知识，能大幅提升分类效果。在HuggingFace上，针对中文文本分类，我为你推荐以下最合适的模型：最推荐的模型：BERT-base-chinese模型名称(HuggingFaceID):google-bert/bert-base-chinese为什么推荐它
⼤模型（LLMs）基础⾯ cv2016_DL LLM大模型计算机视觉人工智能 llama
1.⽬前主流的开源模型体系有哪些？⽬前主流的开源LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型，包括GPT、GPT-2、GPT-3等。GPT模型通过在⼤规模⽆标签⽂本上进⾏预训练，然后在特定任务上进⾏微调，具有很强的⽣成能⼒和语⾔理解能⼒。2.BERT（B
使用Hugging Face的Sentence Transformers进行文本嵌入 2501_92325368 语言模型 langchain
概述HuggingFace的SentenceTransformers是一种用于生成文本和图像嵌入的Python框架，提供了最新的技术。这个框架可以通过HuggingFaceEmbeddings类来使用嵌入模型。尽管它功能强大，但在本地运行可能会受到操作系统和其他因素的影响，因此推荐给有经验的用户使用。核心原理解析SentenceTransformers基于BERT等深度学习模型，通过转化输入文本为
波动方程延拓法求解 weixin_30777913 算法
题目问题8.使用延拓法结合达’Alembert公式解决以下十二个问题中的每一个。第一个问题：{utt−c2uxx=0,x>0,u∣t=0=0,x>0,ut∣t=0=cos⁡(x),x>0,u∣x=0=0,t>0;\begin{cases}u_{tt}-c^2u_{xx}=0,&x>0,\\u|_{t=0}=0,&x>0,\\u_t|_{t=0}=\cos(x),&x>0,\\u|_{x=0}=0,
WPF textbox头尾添加文本
一个输入数据个数的文本框publicclassNumberToStringConverter:IValueConverter{publicobjectConvert(objectvalue,TypetargetType,objectparameter,CultureInfoculture){if(value==null||string.IsNullOrEmpty(value.ToString())
预训练语言模型 lynnzon 语言模型人工智能自然语言处理
1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。其特点是：仅使用Encoder层：堆叠多层TransformerEncoder，捕捉文本双向语义。预训练任务：通过掩码语言模型（MLM）学习上下文依赖。应用场景：文本分类、实体识别、语义匹配等NLU任务
大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型 lxltom 学习笔记语言模型人工智能 bert gpt
大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer时代的各个主流预训练模型，分别介绍三种核⼼的模型架构、每种主流模型选择的预训练任务及其独特优势，这也是目前所有主流LLM的模型基础。二、Encoder-onlyPLM代表：BERT及其优化版本
OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file, couldn‘t find it in the 是纯一呀 NLP AI DeepLearning deep learning NLP
OSError:Wecouldn'tconnectto'https://huggingface.co'toloadthisfile,couldn'tfinditinthecachedfilesanditlookslikeroberta-baseisnotthepathtoadirectorycontainingafilenamedconfig.json.Checkoutyourinternetco
GED-VIZ部署解决方案 yoyo_573 gitlab
项目https://github.com/bertelsmannstift/GED-VIZ最终结果如图：依赖要求：Dependencies一、Ruby1.9.3(MRI)withRubyGems.AlsoworkswithRuby2.1.(测试ruby2.4兼容性更好)二、MySQL5.1ornewer(测试过MYSQL5.7在迁移过程会有兼容性问题，建议MYSQL5.5）三、PhantomJSf
预训练目标：BERT 更适配 “理解类” 任务
在NLP任务中，更倾向于用BERT而非GPT做预训练，核心原因与两者的模型设计、任务适配性、资源成本有关，具体可从以下维度拆解：一、预训练目标：BERT更适配“理解类”任务BERT的双向预训练目标：通过掩码语言模型（MLM）和下一句预测（NSP），强制模型学习上下文的双向语义依赖（比如用“[MASK]是水果”的前后文猜“苹果”），天生适合文本理解、分类、问答等任务。GPT的单向预训练目标：基于自回
Codeforce 884C - Bertown Subway weixin_34281477
C.BertownSubwaytimelimitpertest1secondmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputTheconstructionofsubwayinBertownisalmostfinished!ThePresidentofBerlandwillvisitthiscitysoontol
Educational Codeforces Round 31 C.Bertown Subway（图论） ganzibang ACM-图论图论
题目链接：BertownSubway题意：简单地说，就是给一个n个地铁站的线路图，每个地铁站i有一趟地铁从i站出发，到达目的站pi，pi可以等于i且满足条件：对于每个i站，只存在一个j站使得pj=i。定义有序对pair(a,b)表示从a站到b站，现在给你一个机会在满足条件下可以改变不超过两个地铁站的pi，使得(a,b)的个数最多，问最多个数是多少？题解：题目先输入一个n，在输入pi，而且每个pi是
codeforces 884C. Bertown Subway
C.BertownSubwaytimelimitpertest1secondmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputTheconstructionofsubwayinBertownisalmostfinished!ThePresidentofBerlandwillvisitthiscitysoontol
十分钟带你入门Go语言(Golang)开发 gopyer 十分钟入门系列 golang 开发语言后端十分钟带你入门
概述Go语言是由Google的RobertGriesemer,RobPike及KenThompson开发的一种静态强类型、编译型语言。Go语言的设计目标是将静态语言的安全性和性能与动态语言的易用性相结合。Go语言在语言层面提供了对协程的支持，特别适合编写高并发的项目。随着使用Go语言开发的Docker、Kubernetes、Isito等容器化技术的兴起，Go语言越来越被广大开发者所青睐，一度从TI
BERT模型微调全攻略：从数据准备到模型部署 AI智能探索者 bert 人工智能深度学习 ai
BERT模型微调全攻略：从数据准备到模型部署关键词：BERT模型、模型微调、数据准备、模型训练、模型部署摘要：本文全面介绍了BERT模型微调的整个流程，从数据准备开始，逐步讲解了数据预处理、模型训练以及最终的模型部署等关键步骤。通过通俗易懂的语言和详细的代码示例，帮助读者理解BERT模型微调的原理和操作方法，以便在实际项目中更好地应用BERT模型。背景介绍目的和范围我们的目的是让大家学会如何对BE
AI大模型学习路线（2025最新）神仙级大模型教程分享，非常详细收藏这一篇就够！ AI大模型-大飞人工智能学习语言模型大模型大模型学习 LLM AI大模型
大模型学习路线图前排提示，文末有大模型AGI-CSDN独家资料包哦！第一阶段：基础知识准备在这个阶段，您需要打下坚实的数学基础和编程基础，这是学习任何机器学习和深度学习技术所必需的。1.数学基础线性代数：矩阵运算、向量空间、特征值与特征向量等。概率统计：随机变量、概率分布、贝叶斯定理等。微积分：梯度、偏导数、积分等。学习资料书籍：GilbertStrang，《线性代数及其应用》SheldonRos
大模型学习路线：这会是你见过最全最新的大模型学习路线【2025最新】大模型入门学习学习人工智能产品经理大模型 AI产品经理程序员大模型学习
大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本如果要深入学习，建议再按以下步骤，从更基础的GPT和BERT学起，因为底层是相通的，而且实际落地到一个系统中，应该也是大模型结合小模型（大模型在做判别性的任务上，比BERT优势不是特别大）可以参考如下方案，按需学习。一、简述按个人偏好总结
Python面向对象设计：SOLID原则详解 Yant224 python #面向对象编程 python 面向对象设计 SOLID原则 Python编程软件架构设计模式代码质量
一、SOLID原则概述1.1为什么需要设计原则？软件需求变化代码腐化维护成本增加开发效率下降系统重构SOLID原则是打破这一恶性循环的关键，由RobertC.Martin提出，包含五大核心原则：原则简称核心思想单一职责原则SRP一个类只有一个改变的理由开闭原则OCP对扩展开放，对修改关闭里氏替换原则LSP子类必须能替换父类接口隔离原则ISP多个专用接口优于单一通用接口依赖倒置原则DIP依赖抽象而非
DeepSpeed 深度学习学习笔记：高效训练大型模型
主要参考官网文档，对于具体内容还需参考官方文档1.引言：为什么需要DeepSpeed？大型模型训练的挑战随着深度学习模型规模的爆炸式增长（从BERT的几亿参数到GPT-3的千亿参数，再到现在的万亿参数模型），传统的单GPU训练方式变得力不从心，即使是多GPU训练也面临巨大挑战：内存限制(MemoryWall):模型参数：模型的参数量巨大，例如一个1750亿参数的GPT-3模型，即使使用FP16精度
BERT-NER-Pytorch 深度学习教程富茉钰Ida
BERT-NER-Pytorch深度学习教程BERT-NER-PytorchChineseNER(NamedEntityRecognition)usingBERT(Softmax,CRF,Span)项目地址:https://gitcode.com/gh_mirrors/be/BERT-NER-Pytorch1.项目介绍BERT-NER-Pytorch是一个基于PyTorch实现的中文命名实体识别（
从代码学习深度学习 - 预训练BERT PyTorch版飞雪白鹿€ #自然语言处理深度学习 pytorch
文章目录前言一、数据准备：为BERT量身打造“教科书”1.1数据处理工具函数(`utils_for_data.py`)1.2加载数据二、模型构建：从零搭建BERT2.1模型工具函数(`utils_for_model.py`)2.2初始化模型和设备三、训练过程：让BERT开始学习3.1训练辅助工具(`utils_for_train.py`&`utils_for_huitu.py`)3.2损失计算与训
大模型基础全解：转行大模型开发所需的知识体系、能力要求及学习路径总结程序员鑫港学习 java 数据库
引言随着人工智能和大模型（如GPT-4、BERT等）技术的快速发展，越来越多的专业人士希望转行进入这一领域。大模型开发涉及复杂的技术体系和多样的应用场景，对从业者的知识和能力提出了较高要求。本文将详细解析转行大模型开发所需的知识体系、能力要求及学习路径，并结合实际数据和案例，提供深度指导。前排提示，文末有大模型AGI-CSDN独家资料包哦！一、基础知识和能力1.编程语言大模型开发离不开编程，以下是
A基础语法.go 是紫焅呢 26字母学习：Go入门篇 golang 开发语言后端青少年编程 visual studio code 学习方法
前言：Go语言（又称Golang）以其简洁、高效的特性，在编程领域崭露头角。它由Google公司的RobertGriesemer、RobPike和KenThompson于2007年创建，旨在提高编程效率，简化并发编程，同时保持良好的性能。目录一、引言二、第一个Go程序三、变量与数据类型变量声明基本数据类型四、控制流语句条件语句循环语句五、函数函数定义函数调用匿名函数六、数组与切片数组切片七、映射（
【大模型开发】Hugging Face的Transformers库详解介绍与案例云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习 transformer huggingface 大模型技术大模型开发 deepseek 机器学习深度学习
深入解析HuggingFaceTransformers及开源大模型微调实践HuggingFaceTransformers已成为自然语言处理（NLP）乃至多模态（跨语言、图像、音频等）应用中最为流行、功能最完备的开源框架之一。它将主流的预训练模型（如BERT、GPT、T5、VisionTransformer等）统一整合在同一套API下，并提供了丰富的工具支持快速训练、推理与部署。本篇文章将：介绍Hu
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end