GPT-2 第2页

GPT-3: Language Models are Few-Shot Learners

WebText：文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。BooksCorpora：此外文章增加了两个来自网络的书籍语料库。Wiki：增加了英语百科语料库。

u013308709·2023-12-30 06:31

GPT系列综述

GPT-2用的是纯无监督预训练。GPT-3沿用了GPT-2的纯无监督预训练，但是数据大了好几个量级。

AmberlikeNLP·2023-12-29 13:16

什么是GPT

1、损失函数就是预测下一个词2、所有下游任务都需要微调（再训练）3、gpt1是decoder，解码器二、gpt-2（开源）1、zero-shot（不做任何训练）在这开始耍起来了，下游任务不训练，不微调2

快乐apple家·2023-12-29 13:46

BloombergGPT—金融领域大模型

GPT-3有1750亿个参数，比以前的GPT-2模型增加了一百倍，并且在现在流行的一系列LLM任务中表现出色，包括阅读理解、开放式问答和代码生成。在GPT-3之后，

dzysunshine·2023-12-28 17:37

龙芯loongarch64服务器编译安装tokenizers

这个库提供了各种各样的预训练分词器，如BPE、Byte-PairEncoding(Byte-LevelBPE)、WordPiece等，这些都是现代NLP模型（如BERT、GPT-2、RoBERTa等）广泛使用的分词方法

番茄小能手·2023-12-21 07:09

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

人类无法监督超级人工智能，但人工智能可以。过去一年，以「预测下一个Token」为本质的大模型已经横扫人类世界的多项任务，展现了人工智能的巨大潜力。在近日的一次访谈中，OpenAI首席科学家IlyaSutskever大胆预言，如果模型能够很好地预测下一个词，那么意味着它能够理解导致这个词产生的深刻现实。这意味着，如果AI按照现有路径发展下去，也许在不久的将来，一个超越人类的人工智能系统就会诞生。但更

智云研·2023-12-20 18:49

OpenAI超级对齐团队发布第一篇论文，Ilya带头研究，用GPT-2监督GPT-4

由OpenAI首席科学IlyaSutskever领导的“超级对齐”团队发布了他们的第一篇论文，提出了“弱对强泛化”的概念以及用小模型GPT-2监督大模型GPT-4的方法，展示了未来控制超级AI智能的有效手段

夕小瑶·2023-12-20 13:46

OpenAI超级对齐团队发布第一篇论文，Ilya带头研究，用GPT-2监督GPT-4

由OpenAI首席科学IlyaSutskever领导的“超级对齐”团队发布了他们的第一篇论文，提出了“弱对强泛化”的概念以及用小模型GPT-2监督大模型GPT-4的方法，展示了未来控制超级AI智能的有效手段

夕小瑶·2023-12-20 13:15

GPT-2 模型 Part (3)

Part3:BeyondLanguageModeling#机器翻译：Summarization：TransferLearning：MusicGeneration：ResourcesTheGPT2ImplementationfromOpenAICheckoutthepytorch-transformerslibraryfromHuggingFaceinadditiontoGPT2,itimpleme

LittleTreeT·2023-12-18 21:49

GPT / GPT-2 / GPT-3 / InstructGPT 进化之路

‍知乎：AaronWu（已获作者授权，勿随意转载）链接：https://zhuanlan.zhihu.com/p/609716668编辑：深度学习自然语言处理公众号引言近期，ChatGPT火遍圈内外，连微博热搜都出现了它的身影。突然之间，好多许久未联系的各行各业的同学好友都发来“问候”：ChatGPT是什么？其实，ChatGPT的成功并非一朝一夕，而是OpenAI长达4年多持续努力、不懈追求取得的

zenRRan·2023-12-18 12:47

OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透

难懂的GPT-2神经元，让GPT-4来解释。人类看不懂的AI黑箱，就交给AI吧！刚刚，OpenAI发布了震惊的新发现：GPT-4，已经可以解释GPT-2的行为！

乐享技术·2023-12-18 02:05

OpenAI开源超级对齐方法：用GPT-2，监督、微调GPT-4

12月15日，OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型，实现更好的新型对齐方法。目前，大模型的主流对齐方法是RLHF（人类反馈强化学习）。但随着大模型朝着多模态、AGI发展，神经元变得庞大、复杂且难控制，RLHF便有点力不从心。做个不太恰当的比喻，就像是工厂的保安一样：一个20人的小工厂，3个保安就能应付；如果发展到5000人的大工厂呢？仅靠人工就不太行，需要摄像头

richerg85·2023-12-18 02:33

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

来自：机器之心>快来！NLP论文投稿、LLM交流、论文直播群人类无法监督超级人工智能，但人工智能可以。过去一年，以「预测下一个Token」为本质的大模型已经横扫人类世界的多项任务，展现了人工智能的巨大潜力。在近日的一次访谈中，OpenAI首席科学家IlyaSutskever大胆预言，如果模型能够很好地预测下一个词，那么意味着它能够理解导致这个词产生的深刻现实。这意味着，如果AI按照现有路径发展下去

zenRRan·2023-12-17 19:26

大语言模型--数据

ColossalCleanCrawledCorpus（C4）Benchmark的数据污染问题GPT-3的数据集ThePile数据集WebText和OpenWebText数据集WebText数据集被用于训练GPT

无盐薯片·2023-12-15 20:15

ChatGPT的常识

ChatGPT使用GPT-2和GPT-3两种模型来生成自然语言响应，从而与人类进行真实的对话。

小楼先森·2023-12-14 16:28

gpt3、gpt2与gpt1区别

One-shotLearning-CSDN博客Zero-shot（零次学习）简介-CSDN博客GPT1、GPT2、GPT3、InstructGPT-CSDN博客目录gpt2与gpt1区别：gpt3与gpt2区别：GPT

小趴菜日记·2023-12-14 15:06

CLIP在Github上的使用教程

可以用自然语言指示它在给定图像的情况下预测最相关的文本片段，而无需直接对任务进行优化，这与GPT-2和3的零镜头功能类似。我们发现，CLIP无需使用任何128万个原始标注

长沙知名李二狗·2023-12-06 07:38

动手制作个人电脑对话机器人transformers+DialoGPT

简介：DialoGPT是一个对话模型，由微软基于GPT-2训练。由于DialoGPT在对话数据上进行了预训练，所以它比原始的GPT-2更擅长生成类似对话的文本。

玩转测试开发·2023-12-04 06:29

gpt本地搭建步骤

下是搭建GPT-2模型的具体步骤：准备硬件：GPT-2模型需要大量的计算资源和内存来运行。建议使用具有至少8GBGPU内存的高性能计算机或服务器。

锅盖哒·2023-11-27 17:37

大模型微调技术

特定任务训练数据有限减少模型复杂度避免过拟合风险适应任务需求过拟合是指模型在训练数据上表现得很好，但在新的未见过的数据上表现较差的现象模型过于复杂，训练数据量不足等因素引起的LORA1.预训练一个大型语言模型，例如BERT或GPT

数据与后端架构提升之路·2023-11-25 17:19

GPT、GPT-2、GPT-3论文精读笔记

视频：GPT，GPT-2，GPT-3论文精读【论文精读】_哔哩哔哩_bilibiliMAE论文：把bert用回计算机视觉领域CLIP论文：打通文本和图像GPT论文：ImprovingLanguageUnderstandingbyGenerativePre-Training

NElks·2023-11-24 15:46

计算模型参数量的方法

方法fromtransformersimportAutoModelmodel=AutoModel.from_pretrained('/model/GPT-2/gpt2-medium/')sum([p.numel

Takoony·2023-11-24 04:54

LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公

u013250861·2023-11-22 22:34

GPT2Config

它用于根据指定的参数实例化GPT-2模型，定义模型架构。使用默认值实例化配置将产生与GPT-2small架构类似的配置。

hibernate2333·2023-11-12 07:35

搭建 GPT-2 模型训练环境

搭建GPT-2模型训练环境需要一些步骤和资源。以下是在Ubuntu环境下搭建GPT-2模型训练环境的基本步骤：安装Python和相关依赖确保你的系统中安装了Python3.x版本。

jio本小子·2023-11-08 13:51

GPT-3解读：惊艳世界的模型原来是大力出奇迹

今天，我们将共同探索OpenAI的GPT-3，与GPT-2相比，GPT-3更像是一个大力出奇迹的结果。接下来，就让我们跟随论文深入理解其技术细节。

我有魔法WYMF·2023-11-07 18:26

GPT-2：基于无监督多任务学习的语言模型

今天，我们将共同探索OpenAI的GPT-2，跟随论文深入理解其技术细节。

我有魔法WYMF·2023-11-07 18:49

GPT-2 面试题

简介1、GPT-2是什么？它是基于什么模型的？GPT-2是一种人工智能的大型语言模型，由OpenAI在2019年提出²。

onlyfansnft.art·2023-11-06 14:24

NLP学习1 - 使用Huggingface Transformers框架从头训练语言模型

transformers，因此预训练模型就变得非常的容易，本文以学习官方example为目的，由于huggingface目前给出的run_language_modeling.py中尚未集成Albert（目前有GPT,GPT

逆旅ROS·2023-11-03 22:35

利用python GPT-2写一个机器学习模型开发案例

在这个案例中，我们将使用Python编程语言和TensorFlow库来开发一个简单的机器学习模型。我们将使用GPT（GenerativePre-trainedTransformer）模型来生成文本。以下是详细的步骤：1.安装所需库首先，我们需要安装一些必要的库，如TensorFlow、numpy和transformers。可以使用以下命令进行安装：pipinstalltensorflownumpy

田晖扬·2023-11-03 19:45

NLP简报（Issue#5）：The Annotated GPT-2、CodeBERT、JAX、GANILLA等

本文首发于微信公众号：NewBeeNLP欢迎来到NLP时事简报！全文较长，建议收藏。如果想让自己有趣的研究/项目出现在NLP简报中，随时在公众号后台留言联系我1、Publications1.1理解self-distillation1.2深度学习十年简史1.3利用神经网络求解高等数学方程1.4CodeBERT2、CreativityandSociety2.1AIforscientificdiscov

kaiyuan_nlp·2023-11-02 04:28

阿里云AIGC- 使用Megatron-Deepspeed训练GPT-2并生成文本

本文介绍如何使用GPU云服务器，使用Megatron-Deepspeed框架训练GPT-2模型并生成文本。

量化交易曾小健(金融号)·2023-10-29 08:43

详解MegatronLM Tensor模型并行训练(Tensor Parallel)

TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism】是2020年出的，针对billion级别的模型进行训练，例如具有38亿参数的类GPT

MLTalks·2023-10-29 08:12

GPT-1、GPT-2和GPT-3模型详解及其进化之路

GPT-1模型原理与结构OpenAIgpt模型基于Transformer的语言模型，其利用Transformer的decoder结构来进行单向语言模型的训练。GPT的核心思想是先通过无标签的文本去训练生成语言模型，再根据具体的NLP任务（如文本蕴涵、QA、文本分类等），来通过有标签的数据对模型进行fine-tuning。文中所用的网络结构如下：gpt和bert的异同基于transformer的编码

-柚子皮-·2023-10-26 12:16

【论文笔记】GPT-2 通用语言模型的一粒飞弹

代码传送带：https://github.com/openai/gpt-2论文传送带：https://d4mucfpksywv.cloudfront.net/better-language-models

Mango_Holi·2023-10-22 16:40

[论文笔记]GPT-2

引言今天继续GPT系列论文，这次是LanguageModelsareUnsupervisedMultitaskLearners，即GPT-2，中文题目的意思是语言模型是无监督多任务学习器。

愤怒的可乐·2023-10-22 16:39

2. Transformer相关的原理（2.4. 图解GPT）

多图详细解释当今最为强大的人工智能GPT-2(截至2019年8月12日)。今年，我们看到了机器学习在许多场景的广泛应用。OpenAIGPT-2(ht

sunshinecxm_BJTU·2023-10-11 01:49

GPT系列论文解读：GPT-3

GPT-2：GPT-2于2019年发布，是GPT系列的

青云遮夜雨·2023-10-09 14:57

《deep learning》前两周课程总结

AI发展迅速，特别是NLP，一会是Bert，一会是GPT-2，热火朝天。禁不住，我几个月前也想重新好好学习一下深度学习，并且用它做点东西。

liuchungui·2023-10-09 06:16

GPT系列论文解读：GPT-2

GPT-2：GPT-2于2019年发布，是GPT系列的

青云遮夜雨·2023-10-05 00:43

用Python写一个chatgpt

下载预训练的GPT-2模型。定义模型的输入和输出，并将输入数据转换为适合模型的格式。构建模型的结构并对模型进行训练。测试模型的性能，并在必要时调整超参数。使用模型对新的输入进行预测。

BIG-HO·2023-10-03 19:09

GPT系列模型解读：GPT-1

GPT-2：GPT-2于2019年发布，是GPT系列的

青云遮夜雨·2023-10-03 08:07

Coovally模型探索：高效下载并使用Hugging Face Transformers预训练模型

Transformers库易于使用，可方便地集成到现有的深度学习框架，如PyTorch和TensorFlow，让研究人员和开发者更容易下载和应用NLP预训练模型，如BERT、GPT-2、XLNet等，降低使用门槛

Coovally AI模型快速验证·2023-10-01 03:14

ChatGPT追祖寻宗：GPT-3技术报告要点解读

论文地址：https://arxiv.org/abs/2005.14165往期相关文章：ChatGPT追祖寻宗：GPT-1论文要点解读_五点钟科技的博客-CSDN博客ChatGPT追祖寻宗：GPT-2论文要点解读

五点钟科技·2023-09-22 01:14

GPT家族

Task04GPT家族目录GPT-1GPT-1的训练无监督预训练有监督微调任务相关的输入变换GPT-1的数据集网络结构的细节无监督训练有监督微调GPT-1的性能总结GPT-2GPT-2的核心思想GPT-

Runjavago·2023-09-21 05:45

GPT，GPT-2，GPT-3，InstructGPT的进化之路

从2018年的初代GPT开始，到GPT-2、GPT-3、

TFATS·2023-09-21 00:22

ChatGLM GPT原理介绍

OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/)能够写出连贯并且高质量的文章，比之前语言模型效果好很多。

张志翔的博客·2023-09-19 12:17

GPT-1，GPT-2和GPT-3发展历程及核心思想，GTP-4展望

看了很多文章，还是这位大佬介绍的比较透彻，特此转载：词向量之GPT-1，GPT-2和GPT-3-知乎(zhihu.com)https://zhuanlan.zhihu.com/p/350017443目录前言

文昊桑·2023-09-14 18:58

ChatGPT追祖寻宗：GPT-2论文要点解读

论文地址：LanguageModelsareUnsupervisedMultitaskLearners上篇：GPT-1论文要点解读在上篇：GPT-1论文要点解读中我们介绍了GPT1论文中的相关要点内容，其实自GPT模型诞生以来，其核心模型架构基本没有太大的改变，都是一路坚持奉行着基于Transformer的单解码器结构，通过无监督预训练方式来拟合条件概率下的语言模型计算公式，通过利用任务相关的输入

五点钟科技·2023-09-14 01:37

FastChat工作原理解析

Hugggingface提供的Transformer库HuggingFace的Transformers库是一个用于自然语言处理（NLP）任务的Python库，旨在简化和加速使用预训练语言模型（如BERT、GPT

taoli-qiao·2023-09-13 04:09

推荐频道

GPT-2

GPT-3: Language Models are Few-Shot Learners

GPT系列综述

什么是GPT

BloombergGPT—金融领域大模型

龙芯loongarch64服务器编译安装tokenizers

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

OpenAI超级对齐团队发布第一篇论文，Ilya带头研究，用GPT-2监督GPT-4

OpenAI超级对齐团队发布第一篇论文，Ilya带头研究，用GPT-2监督GPT-4

GPT-2 模型 Part (3)

GPT / GPT-2 / GPT-3 / InstructGPT 进化之路

OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透

OpenAI开源超级对齐方法：用GPT-2，监督、微调GPT-4

GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

大语言模型--数据

ChatGPT的常识

gpt3、gpt2与gpt1区别

CLIP在Github上的使用教程

动手制作个人电脑对话机器人transformers+DialoGPT

gpt本地搭建步骤

大模型微调技术

GPT、GPT-2、GPT-3论文精读笔记

计算模型参数量的方法

LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

GPT2Config

搭建 GPT-2 模型训练环境

GPT-3解读：惊艳世界的模型原来是大力出奇迹

GPT-2：基于无监督多任务学习的语言模型

GPT-2 面试题

NLP学习1 - 使用Huggingface Transformers框架从头训练语言模型

利用python GPT-2写一个机器学习模型开发案例

NLP简报（Issue#5）：The Annotated GPT-2、CodeBERT、JAX、GANILLA等

阿里云AIGC- 使用Megatron-Deepspeed训练GPT-2并生成文本

详解MegatronLM Tensor模型并行训练(Tensor Parallel)

GPT-1、GPT-2和GPT-3模型详解及其进化之路

【论文笔记】GPT-2 通用语言模型的一粒飞弹

[论文笔记]GPT-2

2. Transformer相关的原理（2.4. 图解GPT）

GPT系列论文解读：GPT-3

《deep learning》前两周课程总结

GPT系列论文解读：GPT-2

用Python写一个chatgpt

GPT系列模型解读：GPT-1

Coovally模型探索：高效下载并使用Hugging Face Transformers预训练模型

ChatGPT追祖寻宗：GPT-3技术报告要点解读

GPT家族

GPT，GPT-2，GPT-3，InstructGPT的进化之路

ChatGLM GPT原理介绍

GPT-1，GPT-2和GPT-3发展历程及核心思想，GTP-4展望

ChatGPT追祖寻宗：GPT-2论文要点解读

FastChat工作原理解析