gpt-2 第6页

下载使用预训练模型资源

我们经常需要使用一些预训练模型来进行下游任务，大家可以关注如下开源项目HuggingFace上面开源提供了基于通用架构（如BERT，GPT-2，RoBERTa）的数千个预训练模型，并提供了PyTorch

weixin_42001089·2022-11-25 12:02

bert使用

transformers（以前称为pytorch-transformers和pytorch-pretrained-bert）提供用于自然语言理解（NLU）和自然语言生成（NLG）的BERT家族通用结构（BERT，GPT

Ctrl+C用户·2022-11-25 02:47

论文代码复现之：GPT-too: A Language-Model-First Approach for AMR-to-Text-Generation（ARM-to-text）

文章目录资源引用复现过程虚拟环境创建通过pip或者anaconda安装依赖数据集下载GPT-2预训练模型（medium尺寸的）并进行训练解决作者的代码错误解决安装包的版本问题总结资源引用代码网址[github

暖仔会飞·2022-11-23 10:15

Pytorch-Bert预训练模型的使用（调用transformers）

transformers（以前称为pytorch-transformers和pytorch-pretrained-bert）提供用于自然语言理解（NLU）和自然语言生成（NLG）的BERT家族通用结构（BERT，GPT

Douzi1024·2022-11-23 01:39

文本多标签分类python_如何用 Python 和 BERT 做多标签（multi-label）文本分类？

BERT是去年以来非常流行的语言模型(包括ELMO,Ulmfit,BERT,Ernie,GPT-2等)的一种，长期霸榜，非常

weixin_39822184·2022-11-21 08:42

datawhale课程《transformers入门》笔记3：图解GPT-2

文章目录1.GPT简介2.与BERT的一个不同之处3.GPT2结构详解3.1Transformer-Decoder3.2GPT2训练过程3.3GPT2的输入3.4token在decoder层向上流动3.5模型输出3.6简化说明4.GPT2的Self-Attention4.2Self-Attention层详细过程5.GPT-2全连接神经网络FFNN5.1FFNN结构5.2代码示例5.3总结6.灾难性

神洛华·2022-11-21 06:11

GELU()更适合NLP任务的激活函数

另外，在OpenAi的无监督预训练模型GPT-2中，研究人员在所有编码器模块

温涛·2022-11-21 05:34

GPT2模型详解

二GPT2与GPT模型的区别3GPT2模型结构GPT-2模型由多层单向

zhurui_xiaozhuzaizai·2022-11-19 20:48

GPT系列：生成式预训练与零样本学习

GPT系列：生成式预训练与零样本学习本文的主要参考是李沐老师关于GPT系列的解读：GPT，GPT-2，GPT-3论文精读【论文精读】。

Adenialzz·2022-10-28 05:03

预训练模型（Bert及GPT-2）相关资料整理

一、BertBert简介及常见问题：https://blog.csdn.net/sinat_28015305/article/details/109540379Hunggingfacetransformers教程：https://blog.csdn.net/weixin_44965023/article/details/120333903介绍最基本的操作https://caoyang.blog.c

落花雨时·2022-10-17 07:21

Transformers预训练模型使用：语言建模 Language Modeling

如BERT，使用掩码语言建模（maskedlanguagemodeling），GPT-2是用的是因果语言建模（causallanguagemodeling）。除了用于预训练，预原建模在

HMTT·2022-10-15 07:47

RealFormer: 残差式 Attention 层的Transformer 模型

Transformer模型结构中每层都包含着残差结构，而残差结构中最原始的结构设计是Post-LN结构，即把LayerNorm(LN)放在每个子层处理之后，如下图Figure1(a)所示；而其他的一些预训练模型如GPT

NLP论文解读·2022-10-14 07:25

语言模型串烧

PositionalEncodingMulti-headselfattentionFullyconnectedfeedforwardELMo（2018年2月）BERT（2018年10月）Transformer-XL（2019年1月）GPT

Randool·2022-10-04 07:08

【NLP】第9章匹配分词器和数据集

我们探索了原始的Transformer，微调了类似BERT的模型，训练了RoBERTa模型，探索了GPT-3模型，训练了GPT-2模型，实现了T5模型等等。我们还完成了主要的基准测试任务和数据集。

Sonhhxg_柒·2022-09-26 07:52

乐府 ——预训练语言模型在诗词对联生成中的应用

公众号系统之神与我同在背景简介中文传统诗歌对联生成：在格律、平仄、押韵方面具有严格的要求常规的诗歌对联生成模型加入规则对格式进行限制GPTGPT（包括GPT-2、GPT-3）是由OpenAI推出的大规模预训练语言模型

Necther·2022-09-05 07:39

图解BERT、ELMo（NLP中的迁移学习）| The Illustrated BERT, ELMo, and co.

看我看我这是我翻译这位大佬的第二篇文章了，我计划是翻译四篇，（Transformer、BERT、GPT-2、GPT-3），翻译授权见最后。

LolitaAnn·2022-07-18 07:40

Knowledge-Aware Graph-Enhanced GPT-2 for Dialogue State Tracking论文笔记

目前生成DST中很好的基线GPT-2中存

酥到没边本人·2022-07-13 09:46

浅谈GPT-2

GPT-2自google在2018年10月底公布BERT在11项NLP任务中的卓越表现后，BERT（BidirectionalEncoderRepresentationfromTransformers)

喜欢打酱油的老鸟·2022-07-13 09:16

最优的纯文本模型？GPT-4蓄势待发

作者｜AlbertoRomero来源｜机器之心2020年5月，在GPT-2发布一年后，GPT-3正式发布，而GPT-2也是在原始GPT论文发表一年后发布的。

OneFlow深度学习框架·2022-06-02 14:08

使用GPT-2加载CPM-LM模型实现简单的问答机器人

引入上一篇文章介绍了如何使用Paddle2.0构建了GPT-2模型本次就使用之前构建好的模型加载清源CPM-LM模型参数来实现简单的问答机器人效果展示支持问答和古诗默写两个模式快速体验可以在百度AIStudio

jm_12138·2022-05-31 14:11

最优的纯文本模型？GPT-4蓄势待发

作者｜AlbertoRomero来源｜机器之心2020年5月，在GPT-2发布一年后，GPT-3正式发布，而GPT-2也是在原始GPT论文发表一年后发布的。

·2022-05-20 11:24

GPT、GPT-2、GPT-3论文精读笔记

GPT：使用通用的预训练提升自然语言的理解能力使用没有标号的文本来预训练模型，最后在子任务上微调模型。GPT使用的目标函数1是通过前k个词来预测第k+1个词，任务难度要比BERT的完形填空（根据上下文信息来预测中间被mask的词）要难很多，当然如果能够训练起来，能力也要强大很多。由于是通过前k个词来预测，因此GPT使用的是transformer的解码器（只在当前及之前的特征上做自注意力，之后的都被

irony_202·2022-05-17 09:40

广告行业中那些趣事系列20：GPT、GPT-2到GPT-3，你想要的这里都有

本文主要分享本篇主要介绍了GPT系列模型，主要包括GPT、GPT-2和GPT-3。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。

数据拾光者·2022-05-09 10:36

GPT-1,GPT-2,GPT-3三兄弟

本文不仅介绍大哥大GPT-3，还对他的同胞兄弟GPT-1,GPT-2也进行介绍，讲解他们之间的演化过程。强烈推荐李沐

乘瓠散人·2022-04-25 11:06

Google T5 预训练模型

前面我们介绍过GPT系列的三兄弟GPT-1,GPT-2,GPT3，本文我们介绍Google推出的大一统模型——T5，同样是数据和实验多得让你瞠目结舌的论文，没错，就是在炫富，你有钱你也可以烧啊！

乘瓠散人·2022-04-21 15:07

Transformer又来搞事情！百万像素高清图轻松合成，效果迷人

当时OpenAI用GPT-2来分类和补全图像，取得了令人惊艳的成果。遗憾在于，iGPT生成的图像最大只有64x64像素。

Amusi（CVer）·2022-04-13 07:31

【阅读笔记】吴恩达21年AI进展与展望

2.万亿级参数：从BERT（1.1亿）、GPT-2（15亿）、MegatronLM（83亿）、Turing-NLG（170亿）、GPT-3

头发凌乱的鳌拜·2022-03-15 07:45

TensorRT重磅更新！10亿参数大模型实时运行，GPT推理加速21倍

深度学习技术前沿·2022-03-07 07:31

RealFormer: 残差式 Attention 层的Transformer 模型

Transformer模型结构中每层都包含着残差结构，而残差结构中最原始的结构设计是Post-LN结构，即把LayerNorm(LN)放在每个子层处理之后，如下图Figure1(a)所示；而其他的一些预训练模型如GPT

NLP论文解读·2022-02-08 12:00

70自然语言处理预训练技术实践--GPT-2 预训练模型及文本生成

GPT-2预训练模型及文本生成OpenAI在论文ImprovingLanguageUnderstandingbyGenerativePre-Training中提出了GPT模型。

Jachin111·2022-02-06 17:48

冬于·2021-08-21 01:08

论文阅读：《Multimodal Few-Shot Learning with Frozen Language Models》

大规模的自回归语言模型具有很好的学习新任务的能力，如GPT-2，给定几个“示例”，GPT-2能很快的学习到任务形式并回答新的问题。

z花落·2021-08-01 16:34

71自然语言处理预训练技术实践--XLNet 预训练模型及命名实体识别

下面是XLNet在GLUE上的测试结果：image.pngXLNet在BERT和GPT-2上的改进BERT的缺点可以说XLNet是BERT的增强版，但它与BERT

Jachin111·2021-06-18 23:08

NLP模型应用之三：GPT与GPT-2

GPT模型GPT全称GenerativePre-Training，出自2018年OpenAi发布的论文《ImprovingLanguageUnderstandingbyGenerativePre-Training》，论文地址：https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf。在自然语言处理问题中，可从互联

xieyan0811·2021-06-06 12:51

【实战】（以色列·希伯来大学）文本驱动的StyleGAN2图像处理（一）：StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

无需直接对任务进行优化，它可以用自然语言来预测最相关的“图像-文本对”，这类似于GPT-2和3的零快照功能。在本文所介绍的工作中，我们探讨如何利用对比语言—图像预训练（CLIP）模型的力量，为S

闪闪·Style·2021-06-03 12:47

AI界最危险武器GPT-2使用指南：从Finetune到部署

image大数据文摘授权转载自安迪的写作间作者：Andy今早一起床就看到FrançoisChollet大神（Keras作者）发推，根据GPT-2中量模型的超长距离记忆想到了一种简单的不基于机器学习的文本生成方式

大数据文摘·2021-05-15 08:05

序列建模（八）：GPT、BERT、GPT-2、ALBERT -- Transformer在预训练语言模型领域的应用

[李宏毅-ELMO、BERT、GPT视频笔记link][参考link][NLP模型应用之一：基础知识link][BERT参考博客link][GPT-2参考博客link][GPT与GPT-2参考博客link

emm_simon·2021-04-19 20:05

GPT-2大战GPT-3：OpenAI内部的一场终极对决

GPT-2的参数和数据是其前代GPT的10倍。而GPT-3又是GPT-2的10倍。那么问题来了，应该选择那个Transformer呢？

人工智能学家·2021-03-12 16:14

直播预告丨NLP领域的2020年大事记及2021展望

自然处理领域最受关注的模型之一便是BERT，各大公司和高校陆续发布了自己的预训练语言模型；2020年，OpenAI发布的GPT-3，这是一种具有1,750亿个参数的自然语言深度学习模型，它的出现是比号称_“最强NLP模型”_的GPT

·2021-01-26 19:41

直播预告丨NLP领域的2020年大事记及2021展望

自然处理领域最受关注的模型之一便是BERT，各大公司和高校陆续发布了自己的预训练语言模型；2020年，OpenAI发布的GPT-3，这是一种具有1,750亿个参数的自然语言深度学习模型，它的出现是比号称_“最强NLP模型”_的GPT

京东智联云开发者·2021-01-20 23:47

GPT「高仿」问世：GPT-Neo，最大可达GPT-3大小，已开源 | AI日报

作者表示，目前他们已经成功制造出GPT-2大小的模型。从项目代码的可扩展性来看，他们预计可以复刻出GPT-3大小的语言模型，甚至比GPT

BAAIBeijing·2021-01-19 18:07

“干掉”程序员饭碗后，OpenAI 又对艺术家下手了！

目前AI客服对于人工的替代率已高达90%以上，GPT-2续写的权游结局，似乎比原著更好，GPT-3更是能直接把需求变

CSDN资讯·2021-01-07 20:38

pytorch resnet50预训练模型_最强NLP预训练模型库PyTorchTransformers正式开源！支持6个预训练框架，27个预训练模型...

该项目支持BERT、GPT、GPT-2、Transformer-XL、XLNet、XLM等，并包含了27个预训练模型。

weixin_39663360·2020-11-27 00:38

国内HuggingFace，预训练模型镜像使用

HuggingFaceTransformers是自然语言处理领域的重要开源项目，提供了基于通用架构（如BERT，GPT-2，RoBERTa）的数千个预训练模型，并提供了PyTorch和TensorFlow

WBwhiteBeard·2020-11-23 17:56

图解GPT-2（完整版）！

多图详细解释当今最为强大的人工智能GPT-2(截至2019年8月12日)。今年，我

zenRRan·2020-11-10 22:28

UNIF: 自然语言处理联合框架

轻便、易使用的自然语言处理联合框架，帮你快速搭建各类常用深度学习模型(Transformer,GPT-2,BERT,ALBERT,UniLM,XLNet,ELECTRA)，同时对于BERT系列，支持高效用的蒸馏

luv_dusk·2020-10-09 21:10

一天star量破千，300行代码，特斯拉AI总监Karpathy写了个GPT的Pytorch训练库

2018诞生的GPT，1.17亿参数；2019年GPT-2，15亿参数；2020年GPT-3，1750亿参数。短短一年时间，GPT模型的参数量就呈指数级增长。GPT-3发布后不久，OpenAI即向社区

算法与数学之美·2020-09-14 00:33

完全图解GPT-2：看完这篇就够了（二）

在本系列文章的第一部分中，我们回顾了Transformer的基本工作原理，初步了解了GPT-2的内部结构。

维尼弹着肖邦的夜曲·2020-09-12 09:45

完全图解GPT-2：看完这篇就够了（一）

其中，GPT-2由于其稳定、优异的性能吸引了业界的关注今年涌现出了许多机器学习的精彩应用，令人目不暇接，OpenAI的GPT-2就是其中之一。

chvalrous·2020-09-12 08:04

一天star量破千，300行代码，特斯拉AI总监Karpathy写了个GPT的Pytorch训练库

2018诞生的GPT，1.17亿参数；2019年GPT-2，15亿参数；2020年GPT-3，1750亿参数。短短一年时间，GPT模型的参数量就呈指数级增长。

Wang_AI·2020-09-12 02:31

推荐频道

gpt-2

下载使用预训练模型资源

bert使用

论文代码复现之：GPT-too: A Language-Model-First Approach for AMR-to-Text-Generation（ARM-to-text）

Pytorch-Bert预训练模型的使用（调用transformers）

文本多标签分类python_如何用 Python 和 BERT 做多标签（multi-label）文本分类？

datawhale课程《transformers入门》笔记3：图解GPT-2

GELU()更适合NLP任务的激活函数

GPT2模型详解

GPT系列：生成式预训练与零样本学习

预训练模型（Bert及GPT-2）相关资料整理

Transformers预训练模型使用：语言建模 Language Modeling

RealFormer: 残差式 Attention 层的Transformer 模型

语言模型串烧

【NLP】第9章 匹配分词器和数据集

乐府 ——预训练语言模型在诗词对联生成中的应用

图解BERT、ELMo（NLP中的迁移学习）| The Illustrated BERT, ELMo, and co.

Knowledge-Aware Graph-Enhanced GPT-2 for Dialogue State Tracking论文笔记

浅谈GPT-2

最优的纯文本模型？GPT-4蓄势待发

使用GPT-2加载CPM-LM模型实现简单的问答机器人

最优的纯文本模型？GPT-4蓄势待发

GPT、GPT-2、GPT-3论文精读笔记

广告行业中那些趣事系列20：GPT、GPT-2到GPT-3，你想要的这里都有

GPT-1,GPT-2,GPT-3三兄弟

Google T5 预训练模型

Transformer又来搞事情！百万像素高清图轻松合成，效果迷人

【阅读笔记】吴恩达21年AI进展与展望

TensorRT重磅更新！10亿参数大模型实时运行，GPT推理加速21倍

RealFormer: 残差式 Attention 层的Transformer 模型

70自然语言处理预训练技术实践--GPT-2 预训练模型及文本生成

BERT相关(更新中)

论文阅读：《Multimodal Few-Shot Learning with Frozen Language Models》

71自然语言处理预训练技术实践--XLNet 预训练模型及命名实体识别

NLP模型应用之三：GPT与GPT-2

【实战】（以色列·希伯来大学）文本驱动的StyleGAN2图像处理（一）：StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery

AI界最危险武器GPT-2使用指南：从Finetune到部署

序列建模（八）：GPT、BERT、GPT-2、ALBERT -- Transformer在预训练语言模型领域的应用

GPT-2大战GPT-3：OpenAI内部的一场终极对决

直播预告丨NLP领域的2020年大事记及2021展望

直播预告丨NLP领域的2020年大事记及2021展望

GPT「高仿」问世：GPT-Neo，最大可达GPT-3大小，已开源 | AI日报

“干掉”程序员饭碗后，OpenAI 又对艺术家下手了！

pytorch resnet50预训练模型_最强NLP预训练模型库PyTorchTransformers正式开源！支持6个预训练框架，27个预训练模型...

国内HuggingFace，预训练模型镜像使用

图解GPT-2（完整版）！

UNIF: 自然语言处理联合框架

一天star量破千，300行代码，特斯拉AI总监Karpathy写了个GPT的Pytorch训练库

完全图解GPT-2：看完这篇就够了（二）

完全图解GPT-2：看完这篇就够了（一）

一天star量破千，300行代码，特斯拉AI总监Karpathy写了个GPT的Pytorch训练库

【NLP】第9章匹配分词器和数据集