GPT-2 第3页

Pytorch——XLNet 预训练模型及命名实体识别

介绍在之前我们介绍和使用了BERT预训练模型和GPT-2预训练模型，分别进行了文本分类和文本生成次。我们将介绍XLNet预训练模型，并使用其进行命名实体识别次。

javastart·2023-09-12 09:29

AIGC之文本内容生成概述（下）—— GPT

GPT的发展到目前为止，已经经历了多个版本更替，从最早的GPT-1、到GPT-2、GPT-3，再到

深度人工智能·2023-09-10 08:21

《自然语言处理》chapter7-预训练语言模型

同时参考沐神的两个视频：GPT，GPT-2，GPT-3论文精读【论文精读】BERT论文逐段精读【论文精读】概述自然语言处理的核心在于如何更好地建模语言。

Jiawen9·2023-09-10 04:49

ChatGPT追祖寻宗：GPT-1论文要点解读

这两天突然想再回顾一下GPT-1和GPT-2的论文，于是花时间又整理了一下，也作为一个记录~话不多说，让我们一起来品读一下GPT经典之作吧！

尚拙谨言·2023-09-06 18:42

【AI理论学习】语言模型：掌握BERT和GPT模型

的基本原理BERT的整体架构BERT的输入BERT的输出BERT的预训练掩码语言模型预测下一个句子BERT的微调BERT的特征提取使用PyTorch实现BERTGPT模型GPT模型的整体架构GPT的模型结构GPT

镰刀韭菜·2023-09-05 05:01

谷歌发布Gemini以5倍速击败GPT-4

这个模型的训练所需的浮点运算量（FLOPS）超过了GPT-2的14倍，但这在很大程度上是无关紧要的，因为仅仅几个月后，OpenAI

AI 研习所·2023-08-31 06:44

Facebook AI mBART：巴别塔的硅解

类似的基于变压器的模型，如OpenAI的GPT-2和百度的ERNIE也紧随其后。2019年10月，FacebookAI推出了BART，这是一种新的文本生成和理解预训练模型，使用双向和自回归方法。

大伟先生·2023-08-26 06:57

关于 LLM 和图数据库、知识图谱的那些事

布道师wey在「夜谈LLM」主题分享上的演讲，主要包括以下内容：背景LLMRAGGraph知识抽取Text2CypherGraphRAG未来规划技术背景LLM是什么这里简单、快速地介绍下大语言模型：从GPT

图数据库NebulaGraph·2023-08-24 09:41

关于 LLM 和图数据库、知识图谱的那些事

布道师wey在「夜谈LLM」主题分享上的演讲，主要包括以下内容：背景LLMRAGGraph知识抽取Text2CypherGraphRAG未来规划技术背景LLM是什么这里简单、快速地介绍下大语言模型：从GPT

·2023-08-23 12:55

NLP预训练模型超大规模探索

语言模型式，就是GPT-2那种方式，从左到右预测；BERT-style式，就是像BERT一样将一部分给破坏掉，然后还原出来；Deshuffling（顺序还原）式，就是将文本打乱，然后还原出来。

Replete·2023-08-23 07:36

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

在这个项目中，我们将通过开源项目trl搭建一个通过强化学习算法（PPO）来更新语言模型（GPT-2）的几个

·2023-08-21 22:13

PyTorch 分布式训练教程

例如，BERT和GPT-2等大型语言模型是在数百个GPU上训练的。对于多GPU训练，需要一种在不同GPU之间对模型和数据进

HDX柿子·2023-08-21 03:09

InstructGPT学习

GPT-2用的是纯无监督预训练。GPT-3沿用了GPT-2的纯无监督预训练，但是数据大了好几个量级。

银晗·2023-08-19 08:02

探索从GPT-2到GPT-4的演进

本文探讨了GPT-2到GPT-4的创造性，并分析了这些模型在不同创造性测试中的表现。

·2023-08-16 19:17

关于 LLM 和图数据库、知识图谱的那些事

布道师wey在「夜谈LLM」主题分享上的演讲，主要包括以下内容：背景LLMRAGGraph知识抽取Text2CypherGraphRAG未来规划技术背景LLM是什么这里简单、快速地介绍下大语言模型：从GPT

·2023-08-16 16:09

大语言模型LLM的一些点

GPT-2(15亿参数），在生成方面表现出很大天赋，阅读摘要、聊天、续写、编故事。GPT-3(1750亿参数)，作为一个自监督模型，可以完成自然语言处

远洋号·2023-08-16 14:29

大语言模型LLM的一些点

GPT-2(15亿参数），在生成方面表现出很大天赋，阅读摘要、聊天、续写、编故事。GPT-3(1750亿参数)，作为一个自监督模型，可以完成自然语言处

超人汪小建(seaboat)·2023-08-16 00:14

[NLP]LLM 训练时GPU显存耗用量估计

以LLM中最常见的Adam+fp16混合精度训练为例，分析其显存占用有以下四个部分：GPT-2含有1.5B个参数，如果用fp16格式，只需要1.5G*2Byte=3GB显存,但是模型状态实际上需要耗费1.5B

奇思闻影的舒克与贝克·2023-08-15 20:19

配置BERT运行环境

自然语言处理库Transformers包含了BERT、GPT、GPT-2、Transformer-XL、XLNet、XLM等模型的实现，近两年Pytorch生态日趋成熟。

xieyan0811·2023-07-29 12:04

chatGPT开源免费使用网址

DialoGPT:这个项目是由MicrosoftResearch推出的，它提供了一个预训练的GPT-2模型，可以用来构建对话系统和其他自然语言处理应用程序。

viperrrrrrrrrr7·2023-07-28 16:19

【Chat GPT】用 ChatGPT 运行 Python

前言ChatGPT是一个基于GPT-2模型的人工智能聊天机器人，它可以进行智能对话，同时还支持Python编程语言的运行，可以通过API接口进行调用。

卑微阿文·2023-07-28 08:47

【深度学习】GPT-3

https://arxiv.org/pdf/2005.14165LanguageModelsareFew-ShotLearners》中发布了GPT-3，共有1750亿参数量，需要700G的硬盘存储，(GPT

DonngZH·2023-07-28 02:49

完全图解GPT-2：看完这篇就够了

完全图解GPT-2：看完这篇就够了原文：illustrated-gpt2作者：JayAlammar机器之心编译，参与：郭元晨、陈韵莹、GeekAI。

Adenialzz·2023-07-23 11:31

【NLP】GPT-2：通过可视化了解语言生成

GPT-2的语言生成艺术也在其中，本篇将谈论相关话题。

无水先生·2023-07-23 11:01

GPT-1,GPT-2,GPT-3 InstructGPT论文学习笔记

Gpt-1论文：《ImprovingLanguageUnderstandingbyGenerativePre-Training》GPT-1网络结构无监督,使用12层transforerdecoder结构,每一层维度是768,12个注意力headstokenembedding矩阵,经过transformerdecoder处理后,经过线性层和softmax层,得到下一个token的预测分布位置编码30

dream_home8407·2023-07-18 06:19

国内HuggingFace，预训练模型镜像使用

HuggingFaceTransformers是自然语言处理领域的重要开源项目，提供了基于通用架构（如BERT，GPT-2，RoBERTa）的数千个预训练模型，并提供了PyTorch和TensorFlow

javastart·2023-07-17 13:35

基于Transformers的自然语言处理入门【四】-GPT

基于Transformers的自然语言处理入门【四】-GPT1GPT模型2语言模型3基于Transformer的语言模型4GPT2详解1GPT模型OpenAI提出的GPT-2模型(https://openai.com

hezzfew·2023-07-15 21:03

Tansformer-GPT-1,GPT-2,GPT-3,BERT&Instruct-GPT简介

•自然语言处理(NLP)是人工智能(AI)领域的一个重要分支，它涉及处理自然语言文本的各种任务，包括文本分类、命名实体识别、情感分析、机器翻译等。NLP的发展离不开机器学习、深度学习等技术的支持，而Transformer模型则是NLP领域中的一个重要技术突破。•Transformer模型是Google在2017年提出的一种新型神经网络结构，它以自注意力机制(self-attention)为基础，摒

吴晓Q·2023-07-14 23:08

【深度学习】GPT-2

OpenAI在《LanguageModelsareUnsupervisedMultitaskLearners》中于2019年提出的GPT-2，全称为GenerativePre-Training2.0。

DonngZH·2023-07-14 12:59

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：基础知识

GenerativePre-TrainedTransformer）：基础知识·GPT（GenerativePre-TrainedTransformer）：在不同任务中使用GPT·GPT（GenerativePre-TrainedTransformer）：GPT

von Neumann·2023-06-23 17:38

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-2与Zero-shot Learning

GenerativePre-TrainedTransformer）：基础知识·GPT（GenerativePre-TrainedTransformer）：在不同任务中使用GPT·GPT（GenerativePre-TrainedTransformer）：GPT

von Neumann·2023-06-23 13:25

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

GenerativePre-TrainedTransformer）：基础知识·GPT（GenerativePre-TrainedTransformer）：在不同任务中使用GPT·GPT（GenerativePre-TrainedTransformer）：GPT

von Neumann·2023-06-23 08:23

CLIP和GPT

ConnectingTextandImageswithEventStructuresHierarchicalText-ConditionalImageGenerationwithCLIPLatentsGPT系列算法GPT-1：GPT

Laura_Wangzx·2023-06-23 04:17

使用BERT和GPT-2计算句子困惑度PPL

定义BERT一个使用bert计算ppl的github项目how-do-i-use-bertformaskedlm-or-bertmodel-to-calculate-perplexity-of-a-sentenceChinese-BERT-wwm对于给定的sentence，按顺序依次mask掉一个token，并计算所预测单词的nllloss，将所有的token的loss求和再取平均，最后取以自然数

kaims·2023-06-22 21:19

最优的纯文本模型？GPT-4蓄势待发

作者｜AlbertoRomero来源｜机器之心2020年5月，在GPT-2发布一年后，GPT-3正式发布，而GPT-2也是在原始GPT论文发表一年后发布的。

·2023-06-22 19:10

GPT内幕机制及源码实现逐行解析 300行源码实现GPT逐行解析

GPT内幕机制及源码实现逐行解析300行源码实现GPT逐行解析Gavin老师：NLP_Matrix_Space4.5300行源码实现GPT逐行解析GPT-2使用12层解码器Transformer架构，在自然语言处理任务中

段智华·2023-06-21 23:51

GPT与GPT-2

GPT与GPT-2GPT-2与GPT一样，都使用的是单向语言模型一、GPTGPT的底层架构是transformer，是由pre-training和fine-tuning两部分构成的。如果GPT做成双向的，那就没Bert什么事了（不过Bert的MaskedLM和NextSentencePrediction的思想也是功不可没哒~）。之所以这么说，是因为Bert底层架构也是transformer，也是由

还卿一钵无情泪·2023-06-18 20:02

ChatGPT的炼成方式和在哈啰营销落地能力

GPT的演进GPT一共有三代，即GPT-1，GPT-2，GPT-3，目前非常火的ChatGPT是GPT-3.5。

·2023-06-17 21:18

DeepSpeed零冗余优化器Zero Redundancy Optimizer

零冗余优化器内容零概述培训环境启用零优化训练1.5B参数GPT-2模型训练10B参数GPT-2模型使用ZeRO-Infinity训练万亿级模型使用ZeRO-Infinity卸载到CPU和NVMe分配MassiveMegatron-LM

AI生成曾小健·2023-06-17 02:56

【DeepSpeed 教程翻译】二，Megatron-LM GPT2，Zero Redundancy Optimizer 和 ZeRO-Offload

DeepSpeed参数解析初始化和训练初始化使用训练API前向传播反向传播更新模型参数损失缩放检查点保存和加载DeepSpeedActivationCheckpoints（可选）训练脚本DeepSpeed使用GPT

just_sort·2023-06-16 07:37

将chatGPT集成到知乎做知乎问答

可以使用一些开源模型进行训练，例如GPT-2、GPT-3等，还需要准备一些与邀请消息相关的数据集。2.设计回复模板接下来需要设计一

程序员Linc·2023-06-15 19:43

ChatGPT/InstructGPT详解

目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的

AI生成曾小健·2023-06-15 02:42

基于Transformer语言模型：GPT-2

基于Transformer语言模型：GPT-2 Transformer是Google在2017年提出的一种新型模型架构。

今晚打佬虎·2023-06-12 13:13

OpenAI用GPT-4 来解释 GPT-2 的行为

大语言模型（LLM）像大脑一样，它们是由“神经元”组成的，它们观察文本中的一些特定模式，以影响整个模型接下来“说”什么。但由于LLM中的参数数量多到已经无法由人类解释的程度，因此，LLM给人一种“黑盒”的感觉，并出现了偏见、幻觉、涌现等一系列不好解释的现象。近日，OpenAI在官网发布了的博文《语言模型可以解释语言模型中的神经元》，震惊了全网。OpenAI最新研究利用GPT-4自动进行大语言模型中

海森大数据·2023-06-12 09:17

InstructGPT

github.com/mli/paper-reading,视频播放量160552、弹幕量803、点赞数5846、投硬币枚数4003、收藏人数5253、转发人数2664,视频作者跟李沐学AI,作者简介，相关视频：GPT，GPT

Kun Li·2023-06-11 19:13

如何利用ChatGPT写毕业论文

ChatGPT是一个基于GPT-2模型的开源聊天机器人，它可以回答用户的问题，进行闲聊和提供各种服务。它的主要特点是可以自我学习和适应不同的对话场景，从而提供更好的用户体验。

一个小浪吴啊·2023-06-11 15:04

GPT从入门到精通之 GPT-2 模型进阶

GPT-2模型进阶在之前的文章中，我们已经介绍了如何在Tensorflow2.x环境中使用GPT模型进行文本生成。

Debug_Snail·2023-06-09 10:08

解读大模型的微调

1.上下文学习与索引自从GPT-2和GPT-3出现以来，可以发现在预训练的通用文本语料库上的生成式大型语言模型（LLM）具备了上下文学习

半吊子全栈工匠·2023-06-09 05:18

探索从GPT-2到GPT-4的演进

本文探讨了GPT-2到GPT-4的创造性，并分析了这些模型在不同创造性测试中的表现。

·2023-06-07 17:36

【自然语言处理】GPT 系列讲解

在阅读本篇之前建议先学习：【自然语言处理】Seq2Seq讲解【自然语言处理】Attention讲解【自然语言处理】ELMo讲解【自然语言处理】Transformer讲解GPT系列：GPT、GPT-2、GPT

不牌不改·2023-04-21 10:57

推荐频道

GPT-2

Pytorch——XLNet 预训练模型及命名实体识别

AIGC之文本内容生成概述（下）—— GPT

《自然语言处理》chapter7-预训练语言模型

ChatGPT追祖寻宗：GPT-1论文要点解读

【AI理论学习】语言模型：掌握BERT和GPT模型

谷歌发布Gemini以5倍速击败GPT-4

Facebook AI mBART：巴别塔的硅解

关于 LLM 和图数据库、知识图谱的那些事

关于 LLM 和图数据库、知识图谱的那些事

NLP预训练模型超大规模探索

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

PyTorch 分布式训练教程

InstructGPT学习

探索从GPT-2到GPT-4的演进

关于 LLM 和图数据库、知识图谱的那些事

大语言模型LLM的一些点

大语言模型LLM的一些点

[NLP]LLM 训练时GPU显存耗用量估计

配置BERT运行环境

chatGPT开源免费使用网址

【Chat GPT】用 ChatGPT 运行 Python

【深度学习】GPT-3

完全图解GPT-2：看完这篇就够了

【NLP】GPT-2：通过可视化了解语言生成

GPT-1,GPT-2,GPT-3 InstructGPT论文学习笔记

国内HuggingFace，预训练模型镜像使用

基于Transformers的自然语言处理入门【四】-GPT

Tansformer-GPT-1,GPT-2,GPT-3,BERT&Instruct-GPT简介

【深度学习】GPT-2

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：基础知识

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-2与Zero-shot Learning

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：GPT-3与Few-shot Learning

CLIP和GPT

使用BERT和GPT-2计算句子困惑度PPL

最优的纯文本模型？GPT-4蓄势待发

GPT内幕机制及源码实现逐行解析 300行源码实现GPT逐行解析

GPT与GPT-2

ChatGPT的炼成方式和在哈啰营销落地能力

DeepSpeed零冗余优化器Zero Redundancy Optimizer

【DeepSpeed 教程翻译】二，Megatron-LM GPT2，Zero Redundancy Optimizer 和 ZeRO-Offload

将chatGPT集成到知乎做知乎问答

ChatGPT/InstructGPT详解

基于Transformer语言模型：GPT-2

OpenAI用GPT-4 来解释 GPT-2 的行为

InstructGPT

如何利用ChatGPT写毕业论文

GPT从入门到精通 之 GPT-2 模型进阶

解读大模型的微调

探索从GPT-2到GPT-4的演进

【自然语言处理】GPT 系列讲解

GPT从入门到精通之 GPT-2 模型进阶