响尾大菜鸟

ChatGPT2论文解读《Language Models are Unsupervised Multitask Learners》（2019）

论文总结

以下是我阅读完整篇论文做的个人总结，包含了ChatGPT-2文章的主要内容，可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫，被抓取的网页部分来自于社交平台，这些网页由人工进行过滤。最终生成WebText数据集，包含45000000个链接。另一部分来自于新闻网站，数据截止2017年12月，数据总量达到8000000篇文章，总共有40GB的文本内容。文章还提到，包括wiki百科等文本也纳入训练数据集，由全世界各地数百万人参与来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种结合单词级表示和字节级表示的混合输入表示。针对过去的单词级库去除大量重复单词，又引入字节级表示来提升泛化能力。
单词级表示具有先验优势，字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改：
1.将层归一化移动到每个子块的输入。
2.在自注意块之后添加额外的层归一化。
3.改进了初始化方法（初始化时将残差层的权重按1/√N的倍数扩大，N是残差层数量）。
4.词典扩大，分词扩大，指令集扩大，批处理大小扩大。
5.GPT包含117000000参数，GPT-2包含1542000000参数。

实验

因为只训练一次，却想观察模型在各个细分领域的表现，因此所有实验都可归类为零次学习（zero-shot）。

测试项目	测试模型的哪方面能力	测试结果
儿童书籍	识别不同类型的词汇	ACC从85.7提升至93.3
LAMBADA测试	识别文本中长依赖的能力	PPL99.8降低至8.63
Winograd Schema Challenge	常识性推理	63.7%提升至70.7%
阅读理解	需要模型具有一定记忆能力	4项测试3项刷新历史记录
摘要	对新闻文章提取摘要的能力	与历史成绩持平
翻译	大模型自动学习的翻译能力	英译法较差，法译英达到基准水平
问答	模型对于似是而非问题回答正确的能力	准确度提升5.3倍

总结

GPT-2论文的核心内容，可以用一句话进行总结：那就是在GPT模型的基础上，作者提升了模型大小和训练数据集大小，结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习。
举个例子来说，我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集，并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力，不仅如此模型还将自动拥有一些新的能力，例如编写新闻摘要的能力。
这意味着大型语言模型具有很强的泛化能力，同时也意味着大型语言模型将会具有潜在自主意识。随后本文针对作者列举的几个独立领域，陈述了实验结果。
相比于GPT论文中只提到Large Dataset，GPT-2论文中开始出现LLM（Large Language Model）的描述。

论文原文解读

原论文地址：https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

一、介绍

过去的机器学习系统已经可以很好地实现特定的目标，只要使用合适的训练模型、提供海量的数据集并进行有监督的训练。但是这些系统往往高度依赖于训练模型的方法以及数据集，一旦这些部分发生变化，模型就会被破坏甚至彻底失效。因而过去的机器学习研究仅仅在特定领域和研究方向上取得很好成果，无法得到更通用和泛化的效果。本文尝试提出一种模型，可以解决更加通用和泛化的问题，并且不需要手工标注训练用的特定目标数据集。
我们怀疑导致传统机器学习方法泛化性弱的一个原因，是过去的机器学习系统都是用一个训练模型方法、基于一个数据集进行训练。因而我们会在训练时引入更大范围的数据集，并使用多种方法进行训练得出最终模型，这种方法可以显著提升模型的泛化能力。这种方法被称为多任务学习（Multitask Learning），并且部分研究人员已经对他做了一定的研究，但是多任务学习在NLP领域依然属于前沿领域，研究甚少。
当前的机器学习系统需要成百上千的数据输入才能归纳出泛化良好的模型函数，这表明多任务学习同样需要大量的数据进行训练。受制于现有的技术，我们很难继续扩充数据集，因此我们将在模型设置上进行优化。
当前最好的语言类模型训练架构就是结合深度学习预训练和二阶段的有监督调参（这里指的就是ChatGPT1中提出的架构）。第一，将文本词汇进行向量化，并将其用作特定学习模型的输入，然后循环网络的上下文表示就会根据数据进行训练产出。最近的研究表明，要想获得较好的模型效果，不再需要特定学习模型架构设计，只需要转移更多的自注意函数（self-attention blocks）就足够了。第二，这种架构在二阶段依然需要一部分的标注数据，但是当我们没有标注数据时，模型是否还可用？另一个方向的研究表明，在缺少标注数据的场景下，语言模型依然可以很好的处理常识推理和情绪分析类的问题。
本文将结合以上几点优化，设计一个更加通用的转化方法。我们将揭示在这种多任务学习的架构设计下，即使不做任何调参和架构调整的情况下，语言模型依然可以表现的很好。

二、实现方案

本方案的核心就是语言模型。语言模型往往被设计成无监督分布式的评估架构，其输入通常是一组组合集{x1,x2,x3…}，每个元素是由不定长的符号集合（s1,s2,s3…）组成。正常的语言通常具有特定的语法顺序，因此可以计算符号之间的连接概率，来预测下一个出现的单词。近几年的研究成果大大提升了这种架构设计的模型准确度，例如Transformer模型当中的self-attention架构。
语言具有很高的易变性，因此对于单任务模型而言，不同语言需要非常定制的训练目标、输入、以及输出。近期的研究成果诸如encoder和decoder，提供了更好的思路来表示语言模型需要的输入和输出形式。
基于以上原理，原则上来说，所有语言模型都应该支持无监督的学习能力。相比于无监督训练数据集，有监督训练数据集仅仅多些标记结果，因此可以看做世界上可用的无标注数据集就是有标注数据集。前期的研究表明，超大型多任务语言模型在无监督训练下可以产出和有监督训练相似的效果，但是训练时间会更久。
当今互联网存在大量可用的文本信息。我们的推测就是，在输入大量无标注文本数据之后，超大型多任务语言模型将会逐渐学习到预测文本的能力，不管这个模型采用的是什么方法或流程。本文就测试了这种零次学习（zero-shot）设置下的模型训练效果。
零次学习（zero-shot）指模型可以根据分类描述，直接预测出未训练过的数据。举例来说，模型训练数据中出现过马、条纹、黑白，并且有一个分类描述“具有黑白条纹的马是斑马”，则模型可以直接识别出斑马。

2.1训练数据集

之前的语言模型通常是基于一个垂直领域的文本集进行训练，这个文本集可以是一个新闻报道集合、维基百科、小说。而我们的目标是在尽可能广的数据集范围内进行训练，并最终得到一个效果不错的通用语言模型。一个可靠的广泛且通用文本数据集是Common Crawl，这是一种标注数据集，很多研究者已经基于该数据集进行了有监督训练并得到对应的语言模型。
我们不希望受限于标注数据集，因此我们开发了一种特定的网页爬虫工具，将从互联网爬取高质量的文本，生成我们模型的通用数据集。我们的爬虫只爬取人工过滤过的网站，但是人工过滤网页内容是及其消耗时间的，因此我们选择从Reddit社交网站中进行文本爬取。
我们将爬取到的数据定义为WebText，该数据集最终包含4500万个网页链接（links），我们使用Dragnet和Newspaper content extractors两个工具将网页中的文本提取出来。本文中介绍的模型方案，使用了一个更小的文本数据集，该数据集包含800万个文档，总共包含40GB的文本内容。我们将维基百科的文本全部移出，因为这部分文本数据集的学习效果可以在其他研究模型中看到，我们不再做重复工作。

2.2输入表示

一个通用的语言模型（Language Model，LM）应该可以计算任何字符串出现的概率。现有的LM模型依赖于文本预处理，例如全部转为小写字母、分词（tokenization）等操作。过去的认知认为，在处理标准字符集UTF-8的时候，字节级别（byte-level）的模型不如单词级别（word-level）的模型，我们在研究过程中也复现了这一结论。
字节对编码（Byte Pair Encoding，BPE）是一种介于字符级别（character-level）和单词级别（word-level）之间的符号序列，BPE通常操作Unicode符号而不是直接处理字节。对于单词级别的实现方式要求模型将整个Unicode符号字典存入内存从而实现任意字符串匹配，这意味着在没有做任何事情之前，已经在内存里面放了一个13000单词的数据。而对于字符级别的实现，仅需要放入一个256大小的字典即可。如今BPE有多种实现方案，我们观察到许多BPE方案会包含重复单词，例如dog、dog?，我们做了特定的压缩优化方式，尽可能的减少这部分重复数据。最终设计出的BPE方案完美的结合了字符级别和单词级别语言模型的优点，他为我们后续的大型语言模型识别通用语言文本提供了能力。

2.3模型

我们设计的语言模型（Language Model，LM）基于Transformer模型。基于Transformer模型，我们做了些许优化，层归一化（Layer Normalization，LN）前移至输入的每个子块，在最终的self-attention块之后再增加一个层，用一个因子1/√N 加重了初始化剩余层的权重（其中N是剩余层的数量）。最终的单词量扩大至50257，上下文token大小从512扩大至1024。

三、实验

我们最终训练了四组大模型，训练结果见表2。最小的模型正如GPT，第二小的模型相当于一个BERT模型，最大的模型我们将其定义为GPT-2。每组模型的训练速度我们都进行了手动调参，虽然最终所有模型对于WebText依然欠拟合，但随着训练时间的增加，效果有着比较明显的提升。GPT-2是在通用数据下进行训练的，而后面的所有实验都是GPT-2未经过特定的监督学习训练的，因此以下的实验都被视作零次学习（zero-shot）。

表2.四组大模型的参数结果数据

3.1语言模型

作为开始零次学习（zero-shot）任务的第一步，我们首先观察了过去实验的一些结果和经验。我们的模型运行在字节级，因此不需要预处理和分词，我们可以在任何语言模型的基准上对他进行评价。表3展示了我们的模型在数据集上的表现。
结果显示我们的模型在总共8个数据集中，7个数据集的表现优于过去的模型。在小模型上，我们的模型取得了巨大的提升，例如PTB和WikiText2，这些数据集只有一至两百万的单词。长句子数据集的表现也提升很大，例如LAMBADA和CBT。我们的模型在1BW数据集上表现不如过去的模型，这可能是因为过去的模型在1BW上做了很多预处理。

表3.模型在8个数据集下的表现。PPL越小越好，ACC越大越好

3.2儿童书籍测试（CBT, Children’s Book Test）

CBT数据集测试用来检验模型对不同类型单词的识别能力：命名实体、名词、动词和介词。CBT使用结构完形填空模式，在10个可能的词中选择一个准确的，来评估语言模型的效果。我们根据CBT原论文的设计，对模型进行了测试和评估，结果显示随着模型大小的增加，识别效果稳步提升，并最终达到了接近人类的水平。最终得到99.3%的名词分数和89.1%的命名实体分数。

3.3LAMBADA

LAMBADA数据集测试了模型对文本中的长距离依赖关系进行建模的能力。测试任务将预测句子的结尾单词。GPT-2将该测试从PPL=99.8提升到PPL=8.63。我们进行了调查检验，发现在预测错误的句子结尾处，虽然预测错误了，但是GPT-2依然给出了一个可读性很强的连接单词。

图2.随着参数增加，模型效果提升，接近人类的识别水准

3.4维诺格拉德模式挑战（Winograd Schema Challenge）

维诺格拉德模式挑战通过测量模型系统解决文本中的歧义的能力来衡量其进行常识性推理的能力。Trinh & Le近期的研究显著提升了语言模型（LM）在这个测试上的表现。我们按照先前的测试规范，发现GPT-2再次提升了7%的精确度，达到了70.7%。

图3.模型在Winograd Schema Challenge的表现

3.5阅读理解

对话问答（Conversation Question Answering, CoQA）数据集由7个不同的领域文本组成CoQA不仅测试模型的阅读理解能力，还能检验模型的历史记忆能力（例如直接问模型Why？模型需要根据前文所述进行回答才行）。最终GPT-2在4项测试中的3项取得了更好的效果。我们在过程中发现，GPT-2模型经常会使用简单的推测来回答问题。诸如被问到Who类型的问题时，模型总是会随便取一个前文中的人名进行回答。

3.6摘要提取

我们测试了GPT-2在CNN和《每日邮报》数据集上进行总结的能力，为了让模型具备总结行为，我们在文章后面添加了特殊的文字，并通过Top-k随机抽样，生成标记，我们使用这些标记中的前3个生成的句子作为文段摘要。最终发现GPT-2侧重于总结和强调文段中最后的文本内容，并且在一些细节上会出现错误，诸如有多少辆车卷入了车祸。最终的实验结果显示GPT-2的表现在综合指标上下降了6.4，这意味着自然语言模型在特定任务下具备很高的行为能力。

3.7文本翻译

我们测试了GPT-2是否具备语言翻译的能力。为了让模型知道翻译是潜在任务，我们将文本进行了配对[English sentence]=[French sentence]。在一个英文翻译法语的测试集下，GPT-2仅得到5BLUE，表现弱于先前的其他无监督翻译模型。而在法语翻译英文的测试结果中，GPT-2得到了11.5BLUE的结果，这一成绩优于相当多的同类模型，但依然不如最近研究得出的最好模型成绩33.5BLUE。即使如此，该结果依然令我们感到欣喜若狂，因为我们在数据清洗中已经特地将所有非英文内容从WebText中去除，没想到GPT-2依然具有如此强大的翻译能力。

3.8问答类

测试语言模型包含哪些信息的一个方法，就是用似是而非的问题去提问。与翻译类似，语言模型的上下文就在问答对中，GPT-2在问答理解集SQUAD测试中达到4.1%，先前最好的测试结果没有超过1%。GPT-2相比于过去的模型，正确率提升了5.3倍。这说明模型的大小对于准确率来说是一个重要的影响因子，因为GPT-2模型相比于过去的模型更大。

四、泛化效果（Generalization）对比记忆效果（Memorization）

最近在机器视觉（Computer Vision）上的研究显示，图像数据集当中存在大量重复图像，例如CIFAR-10在训练集图像和测试集图像中有3.3%是相同的，这会导致过去实验汇报的一些模型性能和表现会偏高。当数据集不断增加时，相似的问题也会出现在语言模型中。所以有必要搞清楚有多少训练集文本重复出现在了测试训练集当中。
我们制作了一个过滤器，用来查看我们实验过程中重复出现的文段。在大部分文段中都发现了训练集和测试集中存在1-6%的数据重复。鉴于这些重复数据的存在，我们得到的语言模型的实验结果，也会有细微的偏高。这种情况就是归因于基因效果。
确定基于WebText训练的语言模型的表现是否归因于记忆的另一个方法是检查他们在自己的保留集上的表现。我们模型在训练集和测试集上的表现是相似的，并且随着模型大小的增加而提高，这表明GPT-2 在依然是低度拟合的。
关于泛化能力，我们还发现GPT-2拥有撰写新文章的能力，例如《发现会说话的独角兽》的新闻报道。

五、其他相关工作

我们验证了用更大的模型，在更大的数据集上训练的效果。许多先前的研究已经证明，更大的模型会获得更好的语言理解效果，我们的实验运行在一个噪声更多的数据集上，更加复杂更加庞大，但同样得出相似的结论。这说明对于语言模型而言，持续增加训练数据和模型大小，可以不断提升模型的效果。
关于语音模型的预训练，先前也已经做过了广泛的研究。诸如词向量伸缩、文本深度表达学习、分类表示法、RNN调参等方式都可以提升模型的效果。大量的研究证实，预训练非常重要。

六、讨论

当前有大量研究在验证有监督训练和无监督训练的效果。我们的结果证明无监督学习是一个非常重要的过程，值得探索。我们的研究也证明了加入预训练之后的自然语言处理模型可以得到更好的效果，并且我们模型的预训练不需要依赖于有监督学习。
在阅读理解领域，GPT-2在零次学习设置下，效果接近于有监督学习模型。当然也毫无疑问，GPT-2模型在许多实际任务中的表现也不是很好，例如问答和翻译，GPT-2在这些方面的表现仅仅刚刚达到及格线水准。
在零次学习场景下，我们对GPT-2进行的参数调优似乎还没有达到天花板。我们将会在后续的研究中继续加强和精细化参数调优，以挖掘GPT模型还能提升的空间。

七、总结

当一个大型语言模型（LLM）在多样化的文本数据下训练后，得到的模型将能适应多种多样不同目标的任务和需要。GPT-2在8项测试中的7项取得了历史最好成绩。GPT-2在大量训练和学习中，自动实现了零次学习的能力，并且在无显式监督的情况下，完成了对各类语言理解功能的实现。

致谢

感谢参与科研的技术人员、文章编写者、处理训练数据的数百万参与者、帮助我们提供基础硬件设施的谷歌人员。

Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
如何用Function Calling解锁OpenAI的「真实世界」交互能力？（附Node.js 实战） hongkid AI编程
一、FunctionCalling：大模型的「手脚延伸器」1.1核心定义FunctionCalling是OpenAI在2023年6月13日推出的革命性功能（对应模型版本gpt-3.5-turbo-0613和gpt-4-0613），允许开发者通过自然语言指令触发预定义函数，实现大模型与现实世界系统的交互。如同给语言模型安装「手脚」，使其不仅能思考，还能执行具体操作。openai官方说明：https:
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
使用Ollama部署开源大模型好好学习 666 开源
Ollama是一个简明易用的本地大模型运行框架,可以一键启动启动并运行Llama3、Mistral、Gemma和其他大型语言模型。安装MacOS，Windows用户直接在官网下载页下载安装包即可。Linux系统运行如下命令安装curl-fsSLhttps://ollama.com/install.sh|sh使用Usage:ollama[flags]ollama[command]AvailableC
纯「牛马」的逻辑玩儿不转了！求职面试职场创业创业者
又在微信群里被「声讨」了，距离上次这等待遇也过去一段时间了，让人有点「怀念」呢～（别瞎想，我不是字母！）我想此刻趁这心情还未消散殆尽，把近期一直想说但没说的话先说一遍，也暂时不管它是否严谨了，看完想吐槽就尽管来吧！麻木的纯「牛马」们在2022年11月末，ChatGPT的横空出世拉开了AI时代的帷幕，迄今为止两年多过去了，相关基础设施和上层应用已经涌现并迭代了很多版本。在这期间，很多人都至少听说过几
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
学习111 麋鹿叔叔学习
项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新Python工具库GitHubEkoFellouAI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理支持所有平台，提供统一便
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
使用LangChain实现基于LLM和RAG的PDF问答系统张同学吧 langchain 语言模型
目录前言一.大语言模型(LLM)1.什么是LLM？2.LLM的能力与特点二、增强检索生成(RAG)三.什么是LangChain？1.LangChain的核心功能2.LangChain的优势3.LangChain的应用场景4.总结四.使用LangChain实现基于PDF的问答系统前言本文将介绍LLM和RAG的基本概念，并通过一个实际的代码示例，展示如何使用LangChain构建一个基于PDF文档的问
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
DeepSeek API在AutoCAD中的创新应用与挑战 CodeJourney. 数据库算法人工智能
在数字化设计领域，随着人工智能技术的飞速发展，将AI能力融入传统设计软件成为提升设计效率和质量的重要趋势。AutoCAD作为广泛应用的计算机辅助设计软件，与DeepSeekAPI的结合展现出了巨大的潜力。这种融合不仅为设计工作带来了全新的思路和方法，还在多个方面对设计流程进行了优化和创新。一、DeepSeekAPI赋能AutoCAD的多元应用场景（一）智能设计辅助：让创意快速落地在传统设计过程中，
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri