HERODING77

【NLP经典论文精读】Language Models are Few-Shot Learners

Language Models are Few-Shot Learners

前言
Abstract
1. Introduction
2. Approach
- 2.1 Model and Architectures
- 2.2 Training Dataset
- 2.3 Training Process
- 2.4 Evaluation
3. Results
- 3.1 Language Modeling, Cloze, and Completion Tasks
- 3.2 Closed Book Question Answering
- 3.3 Translation
4. Measuring and Preventing Memorization Of Benchmarks
5. Limitations
6. Broader Impacts
- 6.1 Misuse of Language Models
- 6.2 Fairness, Bias, and Representation
- 6.3 Energy Usage
7. Related Work
8. Conclusion
阅读总结

前言

GPT-3的技术报告，在我看来开启了大模型时代的大门，虽然GPT-3的性能和当前的大模型几乎没有可比性，但是在当时看来，一个无所不能的通用模型，能够在现实社会中产生一定的作用，已经让很多工作者兴奋不已了，所谓从0到1比从1到100更难，说的就是这个道理，如果没有GPT-3的工作，可能大模型时代还需要更长时间才能到来。

Paper: https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
Code: https://github.com/openai/gpt-3

Abstract

最近的工作表明通过预训练和微调的范式可以在许多NLP任务中取得巨大的成果。但是微调的过程仍需上千数据，因此，本文表明通过扩大模型的规模，可以极大提高模型的小样本能力。具体来说，作者设计了1750亿参数量的大模型GPT-3，无需修改参数就可以处理特定领域任务。GPT-3在许多任务上表现了出色的小样本性能，甚至可以生成人类难以区分的文章。

1. Introduction

近年来NLP领域呈现出预训练的趋势，并且随着Transformer的出现消除了对于特定任务的架构需求。但是这种方法需要任务特定的数据集进行微调，消除这种局限性是有必要的：

每个任务都需要大量标记的数据，限制了语言模型的适用性，并且标记成本也很高。
模型过大，又在狭窄的任务上进行微调，导致泛化性能差。
人类不需要大量监督数据学习各种语言任务，可以在很多任务之间无缝切换。

一个潜在的解决方法是元学习，即在训练时发展一系列广泛的技能和模式识别能力，然后在推理阶段利用这些能力快速泛化到下游任务。这种方法又被称为“上下文学习”，通过自然语言指令和一些示例，来指导模型生成结果。但是实验部分不尽如人意，需要进一步改进。

近年来通过增大语言模型的规模，发现每次增加都对下游任务进行了改进，作者分析上下文学习可能也会出现类似的收益。
因此本文设计了1750亿参数量的模型GPT-3，在二十多个NLP任务上评估该模型，每个任务设置了三个场景：

小样本学习。将演示的数量限制为10—100。
one-shot学习。只应用一个演示样本。
零样本学习。不添加演示样本，仅提供自然语言指令。

上图显示，通过添加自然语言描述和上下文示例，模型的性能得到提升，此外随着模型大小的增加，小样本学习也会得到显著改善。需要值得注意的是，这些曲线都不涉及模型参数更新。
总的来说，GPT-3在零样本和one-shot设置下都得到了不错的结果，并且在小样本设置下甚至超过了当前部分任务的SOTA。GPT-3还展示了类似于人类学习者的小样本学习能力，作者表明，在小样本设置下，GPT-3可以生成人类难以识别的文章。
GPT-3在部分推理和阅读理解任务上即使是小样本设置也表现挣扎，下图是GPT-3在各种任务上的结果：

作者还对数据污染进行了研究，即测试集可能出现在训练集中，造成数据泄露。作者发现虽然数据污染对于GPT-3 的性能影响甚微，但是一些数据集还是会夸大结果。
此外作者还训练了一系列更小的模型（从1.25亿到130亿），用于和GPT-3的性能作比较。总的来说，随着模型的增大，模型性能平滑增长，并且作者发现，三种设置下模型的差距会随着模型规模的增大而增大，这表明较大的模型是更好的元学习器。

2. Approach

模型和方法沿用了GPT-2，只是对模型的规模进行了扩大。本文的核心在于系统探索了上下文学习中的不同设置。

微调。效果好，但依赖大量监督数据集，泛化能力差。
小样本。大大减少对特定任务监督数据的依赖，性能比微调差得多（除本文模型外）。
one-shot。只允许一个演示的小样本。
零样本。不依赖于任何演示，仅能使用描述任务的自然语言指令，是最具挑战的设置。

本文重点关注后面三种设置，特别是小样本场景，因为其性能甚至能超过SOTA，当然零样本和one-shot设置下和人类表现是最公平的比较。

2.1 Model and Architectures

模型采用和GPT-2一样的架构和方法，不同之处在于在Transformer中采用了类似于稀疏Transformer的机制。之前的工作表明，如果有足够的训练数据，验证集损失会随着模型的增大而呈现平滑的幂律变化。
上表展示了8个不同规模的模型。作者通过模型多维切分实现多GPU训练。

2.2 Training Dataset

Common Crawl数据集包含T级别token，足以训练本文的模型，但是需要进一步提升数据质量：

首先根据高质量数据相似性进行第一轮的过滤。
执行文档级别的模糊重复数据删除，防止数据冗余。
训练组合中添加高质量的语料库，以增强数据集的多样性。

上表是最终训练数据集的组成，在训练期间，数据集并不是按照大小比例进行采样的，而是根据设定的比例进行采样，目的是提高训练数据集的质量。
语言模型预训练上的一个问题是测试集数据可能出现在训练集中，造成知识泄露，污染下游任务。虽然作者尝试消除重叠数据，但是还是存在数据泄露的问题，这需要进一步的探索。

2.3 Training Process

较大的模型通常使用较大的批量和较小的学习率。作者在训练期间测量梯度噪声比例，并根据这个比例选择批量大小。2.1表中展示了对于不同模型，批量大小和学习率的选择情况。

2.4 Evaluation

对于每个下游任务，从其训练集中采样 $K$ 个样本作为条件，Prompt采用“Answer”或者“A“。如果是二分类，答案会是”True“或者”False“，不是0和1，因为0和1在训练时出现的概率没有”True“和”False“高；如果是一个问答任务，采用束搜索，使用F1相似度得分、BLEU或者精确匹配来评估模型。

3. Results

上图展示了8个模型的训练曲线，可以看到模型的性能遵循幂律，即随着计算量的指数增加，损失是线性下降的。

3.1 Language Modeling, Cloze, and Completion Tasks

如上图所示，在完形填空和补全任务上，GPT-3显著提高了零样本领域的SOTA，并且小样本设置下的性能接近人类表现。

开放问答任务结果如上表所示，可以看到GPT-3在三个场景设置下都要高于T5模型微调的结果。

3.2 Closed Book Question Answering

大型语言模型可以不通过辅助信息（即不需要进行信息检索）直接回答问题。结果如下图所示：

GPT-3的性能随着模型大小增加而平稳增长，这表明语言模型随着容量的增加而持续吸收知识。小样本设置超过了微调的SOTA。

3.3 Translation

GPT-3在GPT-2的基础上扩大了训练数据集的范围，以包含更多的其他语言表示。

随着模型规模的扩大，所有数据集都呈现出一致的改进趋势，并且英语翻译的趋势比英语翻译的趋势更强。

作者在第三章做了很多的工作，通过在不同任务上进行实验，来验证GPT-3在NLP的各个领域所表现出的性能。由于篇幅的限制，这里就不一一展示结果了，只以其中几个实验为例，总的来说，在这三种设置下，小样本的表现能力无疑是最好的，并且在部分数据集上甚至超过了微调SOTA，但是仍和人类表现有所差距。

4. Measuring and Preventing Memorization Of Benchmarks

作者任务数据污染问题对于大模型训练来说格外重要，因为这涉及到模型的能力是学习到的还是模仿得到的。GPT-2中做了相关的工作，发现尽管模型在训练和测试之间重叠的数据上确实表现得较好，但这并没有对报告的结果产生显着影响，因为受到污染的数据比例很小。但是GPT-3运行的机制略有不同，首先数据规模上就不是一个数量级，并且使用的Common Crawl数据集质量不佳，增加了污染的可能性。另一方面，由于数据量大，模型很难过拟合（如下图所示），因此污染可能频繁发生。

主动搜索重叠的方式成本高，因此作者转而调研这些重叠如何对结果进行影响。对于每个基准测试的数据集，作者都进行了清洗，并在这些数据集上进行评估，与原始分数比较。结果如下：

尽管潜在的污染很高，但是造成的性能变化可以忽略不计。这有两种可能的原因，一是作者大大高估了污染比例，二是污染对性能影响不大。

5. Limitations

GPT-3仍有很多局限性。

在文本生成上仍有不足，如语义重复，前后矛盾等。
在结构和算法上有局限性，自回归架构不包含其它预训练目标，因此完型填空、阅读理解等任务不如BERT。
容易受到预训练目标的限制。即对于任何token赋予相同的权重，而不会自己“划重点”，并且缺乏多模态知识。
预训练样本效率差。无法达到接近人类的学习效率。
小样本场景下，无法知晓模型是重新学习该任务还是简单识别预训练期间学到的知识。
GPT-3成本高昂推理不便，缺乏实用性，可以考虑知识蒸馏方法。
缺乏解释性。包括哪些权重在生成过程中起到决定性作用。

6. Broader Impacts

语言模型功能强大，势必会对社会产生影响，本章关注语言模型的潜在危害，防患于未然。

6.1 Misuse of Language Models

语言模型容易被恶意使用，如生成垃圾邮件、钓鱼信息、虚假新闻等，由于生成文本高质量性，人类很难将其进行区分。此外，语言模型降低了恶意组织的上手门槛，这增加了恶意攻击的风险，并且语言模型可以被利用牟利。

6.2 Fairness, Bias, and Representation

训练数据中存在的偏差可能会导致模型生成刻板印象或偏见的内容。这会加深现实中存在的刻板印象和其它潜在危害。这些偏见包括性别、种族、宗教等。
比如性别上，作者测试了388个职业，发现83%的职业更可能被GPT-3标记为男性。

上表是描述男性和女性的词语，可以看到对于女性更多的描述为“漂亮”，这虽然是褒义词，但是从某种意义上来说也是一种偏见。

对于种族的偏见更为明显，可以看到在不同大小规模的模型下，黑人几乎一直处于负面评分，而亚裔的评分都是正面的。

在不同的宗教上也呈现出不同的偏见。根据上表可以看到伊斯兰教会牵扯到暴力、恐怖主义等相关词语。
因此，日后的工作需要建立一个相关的词表，设计减轻偏差的规范。

6.3 Energy Usage

大规模语言模型训练需要大量计算，需要在成本和效率之间得到折中。如可以采用知识蒸馏的方式降低成本。

7. Related Work

略。

8. Conclusion

本文提出了一个1750亿参数量的语言模型，该模型在零样本、一样本、小样本设置下，在多个NLP任务上表现出强大的性能。此外，作者还讨论了此类模型对社会的影响，尽管存在很多局限性和缺陷，但是多个结果表明，大规模语言模型是通用语言系统的重要组成部分。

阅读总结

一篇长达75页的技术报告，但是大部分工作和重点都放在了实验部分，方法部分仅仅一笔带过，如果没有GPT-2相关的阅读经验，很难理解GPT-3工作的重点。和GPT-2的零样本设置不同，GPT-3又将目光转向了小样本设置，因为GPT-2虽然提出了一个非常新颖且通用的问题场景，但是效果不尽如人意，作者沿用了GPT-2利用自然语言调整输出无需更新梯度的方法，在小样本设置下甚至超过了一些领域的微调SOTA，这证明了大规模语言模型是通用语言系统的重要组成部分。
总的来说，整个工作的核心在于两个地方，第一是数据集的构建与选择，第二是模型的构建，这些都没有什么创新内容，因此作者将大量的经历放在实验部分，所谓大力出奇迹，通过大量的实验分析，确实更全面的展现了模型的性能，也在一定程度上验证了GPT-2中部分思想的合理性，从而开启了大模型时代的大门。
对于写作者来说，最大的收获在于学习了如何更全面去设计实验，如何通过实验自圆其说，所谓实践出真知，一个完整的文章除了有精彩的故事，也有要令人信服的实验结果。
最后，GPT-3拥有1750亿参数，在时间、算力等成本上都不是个人甚至一个小团队能够消化的，因此才有了现在的参数有效性学习，知识蒸馏等工作的进行。

无线通信与人工智能技术与发展年度总结 Loving_enjoy 实用技巧人工智能信息与通信
2024年，无线通信与人工智能技术取得了显著的进步和突破，这些技术的革新不仅推动了行业的数字化转型，还为全球经济的持续发展注入了新的活力。以下是对无线通信与人工智能技术在这一年发展的详细总结。####无线通信技术的飞速演进无线通信技术的历史可以追溯到19世纪末，意大利科学家马可尼成功实现无线电波传输，开启了无线通信的大门。然而，直到20世纪后期，无线通信技术才真正开始腾飞，从2G到5G不断演进，如
探索Labelbox：打造自定义标注应用的利器！孔旭澜Renata
探索Labelbox：打造自定义标注应用的利器！去发现同类优质开源项目:https://gitcode.com/项目介绍Labelbox是一款专为企业级客户设计的高级数据标注工具。它允许用户构建自己的定制标注界面（编辑器），提供强大的API和SDK，以适应各种复杂的数据标注需求。无论你是人工智能研究者、数据科学家还是软件开发者，Labelbox都能帮助你高效、精准地处理你的数据。技术分析Label
chatgpt赋能python：如何配置Python中的NumPy？ yakuchrisfor ChatGpt chatgpt python numpy 计算机
如何配置Python中的NumPy？如果您是一名Python程序员，那么您可能已经听说过NumPy。NumPy是一个强大的Python库，可用于处理大型多维数组和矩阵，以及用于数值计算和科学计算。因此，NumPy是数据科学中的黄金库，而它的安装是Python编程环境必不可少的一部分。什么是NumPy？NumPy是Python语言的一个扩展程序库，它支持大量的高级数学函数，以及可以高效地操作大型数组
Aligner：自动修正AI的生成结果，北大推出残差修正模型对齐技术蚝油菜花每日 AI 项目与应用实例人工智能人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发非常感兴趣，我会每日分享大模型与AI领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读技术背景：Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。核心优势：作为即插即用的模块，可以直接应用于各种开源和基于API的模型
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
[系统安全] 六十一.恶意软件分析 (12)LLM赋能Lark工具提取XLM代码的抽象语法树（初探） Eastmount 系统安全与恶意代码分析系统安全抽象语法树 Lark 大模型 XLM
您可能之前看到过我写的类似文章，为什么还要重复撰写呢？只是想更好地帮助初学者了解病毒逆向分析和系统安全，更加成体系且不破坏之前的系列。因此，我重新开设了这个专栏，准备系统整理和深入学习系统安全、逆向分析和恶意代码检测，“系统安全”系列文章会更加聚焦，更加系统，更加深入，也是作者的慢慢成长史。换专业确实挺难的，逆向分析也是块硬骨头，但我也试试，看看自己未来四年究竟能将它学到什么程度，漫漫长征路，偏向
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
【AI日记】25.01.25 AI完全体 AI日记人工智能 kaggle 比赛机器学习读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：法治的细节律己AI：8小时，良作息：00:30-8:30，良短视频：大于1小时，差读书和写作：1小时，优饮食：安全健康
Unet 改进：在encoder和decoder间加入TransformerBlock 听风吹等浪起 AI 改进系列 transformer 图像分割 Unet
目录1.TransformerBlock2.Unet改进3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.TransformerBlockTransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前
开源LLMs导览：工作原理、顶级LLM列表对比万俟淋曦 Some Insights 人工智能 AI 生成式人工智能大模型 LLM chatgpt 大语言模型
机器人、人工智能相关领域news/events（专栏目录）本文目录一、开源LLM是什么意思？二、开源LLM如何工作？2.1预训练2.2代币化2.3开源LLM的微调2.4输入编码2.5训练与优化2.6推理三、开源LLM对组织的好处3.1增强的数据安全和隐私3.2节约成本3.3减少供应商依赖性3.4代码透明度四、哪种LLM模式最好？4.1BERT4.2LLaMA(LargeLanguageModelM
揭秘大语言模型：什么是LLM大模型？ AGI-杠哥程序人生兼职副业 web安全语言模型人工智能自然语言处理
前言自从去年chatgpt横空出世以来，它火爆也让大语言模型这个词变的很流行，到底什么是大语言模型，今天从初学者的角度介绍一下大语言模型的基本概念、组成部分和基本工作流程等。下面的介绍中如果涉及到一些专业术语不太理解，也没关系，只要有一个感性认识即可，毕竟我们不打算造车，只要做到自己部署开源大模型的时候，不至于脸盲就可以了。一、大语言模型特点和基本组成大语言模型（LargeLanguageMode
【AI知识点】三种不同架构的大语言模型（LLMs）的区别 AI完全体 AI知识点人工智能语言模型自然语言处理机器学习深度学习注意力机制自注意力机制
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only）、编码器-解码器的模型（Encoder-Decoder），以及仅解码器的模型（Decoder-only）。这三种架构有着显著的区别，主要体现在功能、适用任务和性能上。下面从架构、功能
LearnLM: Improving Gemini for Learning UnknownBody LLM Daily 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《LearnLM:ImprovingGeminiforLearning》的翻译。LearnLM：提升Gemini的学习能力摘要1引言2建模3人类评价设计4结果5结论摘要今天的生成式人工智能系统默认情况下会呈现信息，而不是像人类导师那样让用户参与学习服务。为了解决这些系统的广泛潜在教育用例，我们将注入教学行为的挑战重新定义为一种教学指导，其中培训和评估示例包括描述后续模型中
【python】利用 GridSearchCV 和 SVM 进行学生成绩预测码银支持向量机机器学习人工智能
在机器学习领域，寻找最优模型参数是一个重要的步骤，它直接影响模型的泛化能力和预测准确性。本文将通过一个具体案例介绍如何使用支持向量机（SVM）和网格搜索（GridSearchCV）来预测学生的成绩，并通过调整参数来优化模型性能。数据集：公众号“码银学编程”后台回复：学生成绩-SVM前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：前言–人工智能教程引言学生的成绩预测
nosql mysql区别_nosql和Mysql的区别半杯木 nosql mysql区别
也即非关系型数据库和关系型数据库。目前世界上主流的存储系统大部分还是采用了关系型数据库，其主要有一下优点：1.事务处理—保持数据的一致性；2.由于以标准化为前提，数据更新的开销很小(相同的字段基本上只有一处)；3.可以进行Join等复杂查询。nosql在优势方面，主要体现在下面这三点：1.简单的扩展：典型例子是Cassandra，由于其架构是类似于经典的P2P，所以能通过轻松地添加新的节点来扩展这
2025美赛美国大学生数学建模竞赛C题思路分析完整论文（45页）（含模型，可运行代码，运行结果）小文数模 2025美国大学生数学建模竞赛 2025美赛数学建模C 数学建模 python matlab
2025美赛数学建模竞赛C题思路分析完整论文目录摘要一、问题重述二、问题分析三、模型假设四、模型建立与求解4.1问题14.1.1问题1思路分析4.1.2问题1模型建立4.1.3问题1样例代码（仅供参考）4.1.4问题1样例代码运行结果（仅供参考）4.2问题24.2.1问题2模型建立分析4.2.2问题2模型建立4.2.3问题2样例代码（仅供参考）4.2.4问题2样例代码运行结果（仅供参考）4.3问题
深度学习论文: Cultivated Land Extraction from High-Resolution Remote Sensing Image mingo_敏 Paper Reading Deep Learning Instance Segmentation python 人工智能机器学习
深度学习论文:CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImageTheWinningSolutiontotheiFLYTEKChallenge2021CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImagePDF:https://arxiv.org/pdf/22
【学术会议征稿-第二届生成式人工智能与信息安全学术会议（GAIIS 2025）】人工智能与信息安全的魅力禁默学术会议人工智能
重要信息时间：2025年2月21日-23日地点：中国杭州官网：http://www.ic-gaiis.org简介2025年第二届生成式人工智能与信息安全将于2025年2月21日-23日在中国杭州举行。主要围绕“生成式人工智能与信息安全”的最新研究展开，紧密聚焦AI的热点和难点问题，深入剖析信息安全核心技术。生成式人工智能与信息安全的关系主要体现在以下几个方面：数据安全：生成式人工智能通常需要大量的
《解锁AI黑科技：数据分类聚类与可视化》人工智能深度学习数据挖掘
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
大模型开发流程及架构寒夜灬星辰人工智能语言模型
一、主要内容●以大语言模型为功能核心●利用大语言模型的强大理解能力和生成能力●结合特殊的数据或业务逻辑来提供独特功能的应用二、明确目标●大模型作为一个调用工具，不需要知道太多的原理，不需要优化模型能力●需要掌握PromptEngineering、数据处理方法、业务逻辑分解等手段来充分发挥大模型能力，适配应用任务三、大模型开发与传统开发的区别（一）传统开发将非常复杂的业务拆解成小任务，每个任务构造训
大模型开发流程及项目实战辣椒种子机器学习人工智能
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
LitGPT - 20多个高性能LLM，具有预训练、微调和大规模部署的recipes 伊织产研 #AI 开源项目 LitGPT 预训练微调部署
文章目录一、关于LitGPT二、快速启动安装LitGPT高级安装选项从20多个LLM中进行选择三、工作流程1、所有工作流程2、微调LLM3、部署LLM4、评估LLM5、测试LLM6、预训练LLM7、继续预训练LLM四、最先进的功能五、训练方法示例六、项目亮点教程一、关于LitGPTLitGPT用于使用、微调、预训练和部署LLMLightning快速⚡⚡每个LLM都是从头开始实现的，没有抽象和完全控
LightM-UNet（2024 CVPR）刘若里论文阅读网络学习笔记计算机视觉人工智能
论文标题LightM-UNet:MambaAssistsinLightweightUNetforMedicalImageSegmentation论文作者WeibinLiao,YinghaoZhu,XinyuanWang,ChengweiPan,YashaWangandLiantaoMa发表日期2024年01月01日GB引用>WeibinLiao,YinghaoZhu,XinyuanWang,eta
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
自然语言处理基础知识入门(四) Transformer模型整体最详解（self- attention机制，mask机制）这个男人是小帅 NLP自然语言知识梳理入门自然语言处理 transformer 人工智能 nlp 语言模型机器翻译深度学习
文章目录前言一、Seq2Seq1.1Seq2Seq的基本架构1.2Seq2Seq的框架实例二、Transformer2.1Transformer的整体架构2.2Transformer的输入2.2.1InputEmbeding2.2.2PositionalEncoder2.2.3Transformer的输入2.3Transformer的自注意力机制2.3.1注意力机制2.3.2权重矩阵WWW2.3.
DeepSeek R1本地化部署与联网功能实战指南：从零搭建智能对话系统 Coderabo python DeepSeek R1
前言在人工智能技术快速发展的今天，如何将先进的对话模型DeepSeekR1部署到本地环境并赋予其联网能力，成为许多开发者和企业关注的重点。本文将深入讲解完整的本地化部署流程，并通过实例代码演示如何为模型添加实时网络访问功能。一、环境准备与基础架构1.1硬件需求推荐配置：NVIDIAGPU（RTX3090或更高）+32GB内存+50GB存储空间最低配置：CPU（支持AVX2指令集）+16GB内存+3
大模型迎来2025开年大作：deepseek-R1与deepseek-R1-Zero Funny_AI_LAB 大模型人工智能 ai llama 语言模型
2025-01-20正式发布DeepSeek-R1，并同步开源模型权重。DeepSeek-R1遵循MITLicense，允许用户通过蒸馏技术借助R1训练其他模型。DeepSeek-R1上线API，对用户开放思维链输出，通过设置model='deepseek-reasoner'即可调用。DeepSeek官网与App即日起同步更新上线。论文地址：https://github.com/deepseek-
【小白学AI系列】NLP 核心知识点（三）Word2Vec Blankspace空白人工智能自然语言处理 word2vec
Word2Vec定义：Word2Vec是一种将单词转化为向量的技术，基于神经网络模型，它能够将单词的语义关系通过向量空间的距离和方向进行表示。通过Word2Vec，我们可以将单词从一个离散的符号转化为一个稠密的向量（一般是高维的），并且能够捕捉到单词之间的语义关系和相似性。历史来源：Word2Vec由TomasMikolov等人于2013年在谷歌提出，它迅速成为了词向量表示（wordembeddi
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
AI编程风潮下的生产力革命：从 Copilot 到 Trae 机器小乙 AI编程
AI编程风潮下的生产力革命：从Copilot到Trae前言在人工智能飞速发展的背景下，“AI编程”已经不再是概念炒作，而逐渐成为真实可落地的开发模式。从最初的GitHubCopilot到如今字节跳动的Trae，以及各种聚焦不同场景的AI编程产品如Cursor、Bolt.new、ReplitGhostwriter等，都在加速软件研发流程。本文将结合一些常见使用场景，并通过简短代码示例，让你对AI编程
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出