从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

目录

  • AI21 Labs
  • Alibaba
  • Allen Institute for AI
  • Amazon
  • Anthropic
  • BAAI
  • Baidu
  • BigScience
  • Cohere
  • DeepMind
  • EleutherAI
  • Google
  • Huggingface
  • iFLYTEK
  • Meta
  • Microsoft
  • NVidia
  • OpenAI
  • Salesforce
  • Tsinghua University
  • UC Berkeley
  • Yandex
  • 持续更新中 ...
  • 参考


团队博客: CSDN AI小组


先上 “万恶之源”:Transformer


按机构分类

AI21 Labs

发布时间 模型名称 参数量 机构 相关链接 开源
2021-09 Jurassic-1 (J1) J1-Jumbo v1 (178B)
J1-Large v1 (7.5B)
J1-Grande v1 (17B)
AI21 Labs 论文
官方文档
技术报告
受限

Alibaba

发布时间 模型名称 参数量 机构 相关链接 开源
2019-08 StructBert structbert.en.large(340M)
structroberta.en.large(355M)
structbert.ch.large(330M)
Alibaba Group Inc. 论文
GitHub
模型

Allen Institute for AI

发布时间 模型名称 参数量 机构 相关链接 开源
2018-02 ELMo Small(13.6M)
Medium(28.0M)
Original(93.6M)
Allen Institute for AI 论文 模型

Amazon

发布时间 模型名称 参数量 机构 相关链接 开源
2022-03 DQ-BART 与标准BART相比,参数减少了30倍 Amazon 论文

Anthropic

发布时间 模型名称 参数量 机构 相关链接 开源
2021-12 Anthropic-LM Anthropic-LM v4-s3 (52B) Anthropic 论文1
论文2
未开源

BAAI

发布时间 模型名称 参数量 机构 相关链接 开源
2021-06 Wu Dao 2.0 1.75T BAAI 官网 模型

Baidu

发布时间 模型名称 参数量 机构 相关链接 开源
2019-05 ERNIE 114M Baidu GitHub
论文
模型

BigScience

发布时间 模型名称 参数量 机构 相关链接 开源
2022-05 T0pp 11B BigScience 论文 模型
2022-07 BLOOM 176B BigScience 论文 模型
2022-11 BLOOMZ 176B BigScience 论文 模型

Cohere

发布时间 模型名称 参数量 机构 相关链接 开源
2022-06 Cohere Cohere xlarge v20220609 (52.4B)
Cohere large v20220720 (13.1B)
Cohere medium v20220720 (6.1B)
Cohere small v20220720 (410M)
Cohere xlarge v20221108 (52.4B)
Cohere medium v20221108 (6.1B)
Cohere 官网 受限

DeepMind

发布时间 模型名称 参数量 机构 相关链接 开源
2021-07 AlphaFold 21M DeepMind 论文
2021-12 Gopher 280B DeepMind 论文
官网
未开源
2022-03 Chincilla 70B DeepMind 论文 未开源
2022-03 GopherCite 280B Deepmind 论文
2022-09 Sparrow 70B Deepmind 论文

EleutherAI

发布时间 模型名称 参数量 机构 相关链接 开源
2021-03 GPT-Neo 5B, 2.7B (XL) EleutherAI 论文 模型
2021-06 GPT-J GPT-J (6B) EleutherAI 博客 模型
2021-12 StableDiffusion 890M LMU Munich & Stability.ai & Eleuther.ai 论文 模型
2022-04 GPT-NeoX GPT-NeoX (20B) EleutherAI 论文 模型
2022-04 Flamingo 80B (largest) Deepmind 论文 flamingo-mini模型
2022-05 Gato 1.2B Deepmind 论文

Google

发布时间 模型名称 参数量 机构 相关链接 开源
2018-10 BERT Base = 110M
Large = 340M
Google 论文 模型
2019-01 Transformer XL 151M CMU & Google 论文 模型
2019-05 XLNet Base=117M
Large=360M
Google AI Brain Team & CMU 论文 模型
2019-09 ALBERT Base = 12M
Large = 18M
XLarge = 60M
Google Research 论文 模型
2019-10 T5 11B Google 论文 模型
2019-12 Pegasus Base = 223M
Large = 568M
UCL & Google 论文 模型
2020-03 ELECTRA Base = 110M
Large = 330M
Google Brain & Stanford University 论文 模型
2020-07 BigBird 取决于整体架构 Google Research 论文 模型
2020-10 ViT 86M(Base) to 632M (Huge) Google 论文 模型
2021-01 Switch 1T Google 论文 模型
2021-06 Decision Transformers 117M Google Brain & UC Berkeley & Facebook AI Research 论文 模型
2021-12 GLaM 1.2T覆盖64个专业领域,但只有96B被激活用于推理 Google 论文
2022-01 LAMDA 137B Google 官网
2022-04 PaLM PaLM (540B) Google 论文
官网
未开源
2022-05 UL2 UL2 (20B) Google 论文 模型
2022-06 Imagen 2B Google 官网
2022-06 Minerva 540B Google 官网
2022-12 Flan-T5 Flan-T5 (11B) Google 论文 模型

Huggingface

发布时间 模型名称 参数量 机构 相关链接 开源
2019-10 DistilBERT 66M Huggingface 论文 模型

iFLYTEK

发布时间 模型名称 参数量 机构 相关链接 开源
2020-11 MacBert MacBERT-large, Chinese(324M)
MacBERT-base, Chinese(102M)
iFLYTEK AI Research & Harbin Institute of Technology 论文 模型

Meta

发布时间 模型名称 参数量 机构 相关链接 开源
2019-07 RoBERTa 356M Facebook AI & UW 论文 模型
2019-10 BART 比 BERT 多 10% Facebook AI 论文 模型
2019-10 XLM-RoBERTa Base = 270M
Large = 550M
Facebook 论文 模型
2020-01 mBART 与BART相同 Facebook 论文 模型
2021-03 Swin Transformer 29M-197M Facebook GitHub
论文
模型
2021-07 HTML 400M Facebook 论文
2022-01 CM3 13B (largest) Facebook AI Research 论文
2022-03 SeeKer 与基模型相同 Facebook 官网
2022-05 OPT OPT (175B)
OPT (66B)
Meta AI 论文
官网
模型
2022-08 BlenderBot3 175B Meta AI & Mila/McGill University 论文 blenderbot-3B模型
模型
2022-11 Galatica Galatica (120B) Meta 论文 模型

Microsoft

发布时间 模型名称 参数量 机构 相关链接 开源
2019-05 UniLM 340M Microsoft Research 论文
GitHub
模型
2019-10 DialoGPT 1.5B Microsoft 论文 模型
2022-02 TNLG TNLG v2 (530B)
TNLG v2 (6.7B)
Microsoft/NVIDIA 论文
官方博客
未开源

NVidia

发布时间 模型名称 参数量 机构 相关链接 开源
2021-10 MT-NLG (Megatron Touring NLG) 530B NVidia 官方文档
2020-03 Megatron 8.3B (GPT-like), 3.9B (BERT-like) NVidia GitHub
论文1
论文2
论文3
模型
2022-06 Global Context ViT 90M NVidia

OpenAI

发布时间 模型名称 参数量 机构 相关链接 开源
2018-06 GPT 117M OpenAI 论文 模型
2019-02 GPT-2 1.5B OpenAI 论文 模型
2020-05 GPT-3 GPT-3 davinci v1 (175B)
GPT-3 curie v1 (6.7B)
GPT-3 babbage v1 (1.3B)
GPT-3 ada v1 (350M)
OpenAI 论文
GitHub
受限
2021-01 DALL-E 12B OpenAI 官网
论文
Demo
2021-02 CLIP 未知 OpenAI 论文
GitHub
模型
2021-07 Codex Codex davinci v2 (Unknow)
Codex davinci v1 (Unknow)
Codex cushman v1 (Unknow)
OpenAI 论文 受限
2021-12 GLIDE 12B OpenAI 论文
Demo
2022-01 InstructGPT InstructGPT davinci v2 (175B*)
InstructGPT davinci v1 (175B*)
InstructGPT curie v1 (6.7B*)
InstructGPT babbage v1 (1.3B*)
InstructGPT ada v1 (350M*)
OpenAI 论文
官网
受限
2022-04 DALL-E-2 3.5B OpenAI 官网
论文
2022-10 GPT-3.5 175B OpenAI 官网 未开源
2022-10 ChatGPT 与 GPT3 相同 OpenAI 官网 未开源

Salesforce

发布时间 模型名称 参数量 机构 相关链接 开源
2019-09 CTRL 1.63B Salesforce Research 论文 模型

Tsinghua University

发布时间 模型名称 参数量 机构 相关链接 开源
2020-10 GLM GLM (130B) Tsinghua University 论文
Demo
10B版模型

UC Berkeley

发布时间 模型名称 参数量 机构 相关链接 开源
2021-06 Trajectory Transformers 比 GPT 更小的架构 UC Berkeley 论文 模型

Yandex

发布时间 模型名称 参数量 机构 相关链接 开源
2022-06 YaLM YaLM (100B) Yandex GitHub 模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

你可能感兴趣的:(Alex:,NLP在问答领域的落地与研究,自然语言处理,chatgpt,人工智能,深度学习,nlp)