开源大模型详解


作者:Linux猿

简介:CSDN博客专家,华为云享专家,Linux、C/C++、云计算、物联网、面试、刷题、算法尽管咨询我,关注我,有问题私聊!

欢迎小伙伴们点赞、收藏⭐、留言 


本篇文章主要对开源大模型进行总结和介绍。 

一、什么是大模型?

大模型指网络规模巨大的深度学习模型,具体表现为模型的参数量规模较大,其规模通常在千亿级别。

二、LLaMa 2

LLaMa 2 是 Meta 发布的开源大模型,是开源可商用的版本,有不错的使用效果。

LLaMa 2 有参数量有三种类型:7B、13B、70B。 

2.1 论文和代码

github 地址:GitHub - facebookresearch/llama: Inference code for LLaMA models

论文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

三、BLOOM

BLOOM是 BigScience Large Open-science Open-access Mul-tilingual Language Model首字母的缩写。

BigScience发布 BLOOM,旨在为学术界、非营利组织和小型公司的研究实验室能够更好的研究和使用LLM。并且,BLOOM 本身也是由大量的是AI研究人员参与的单个研究项目,同时也是迄今为止最大规模的合作结果。

3.1 特点

(1)它是一种基于 Transformer 的大型语言模型;

(2)基于 ROOTS 语料库进行训练,ROOTS 语料库包含有 46 种自然语言和13 种编程语言;

(3)由BigScience社区开发和发布;

(4)可以商用,但必须标明使用了 BLOOM,并附上一个许可说明;

(5)最新版本参数规模 176B;

3.2 论文和代码

模型地址:bigscience (BigScience Workshop)

论文地址:https://arxiv.org/pdf/2211.05100v4.pdf

四、Alpaca

Alpaca 7B 是斯坦福大学在 LLaMA 7B 模型上经过 52K 个指令跟踪示范进行微调的模型,其性能比肩 GPT-3.5(text-davinci-003),但是整个训练成本不到 600 美元。

4.1 局限性

Alpaca 仅用于学术研究,禁止任何商业用途。原因有三:

1、Alpaca 基于 LLaMA,它有非商业许可证,因此 Alpaca 也必须继承这一点;

2、指令数据基于 OpenAI 的 text-davinci-003,其使用条款禁止开发与 OpenAI 竞争的模型;

3、没有设计足够的安全措施,因此羊驼还未准备好作为一般用途。

4.2 论文和代码

论文地址:Stanford CRFM

github 地址:GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.

五、T5

T5 (Transfer Text-to-Text Transformer 的简写)是 google 发布的一款开源大模型,

5.1 论文和代码

论文地址:https://www.jmlr.org/papers/volume21/20-074/20-074.pdf

github地址:GitHub - google-research/text-to-text-transfer-transformer: Code for the paper "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"

六、Qwen

通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。本仓库为Qwen-7B-Chat的仓库。

论文地址:

github地址:https://github.com/QwenLM/Qwen-7B

在线访问:Qwen-7B-Chat-Demo

参考链接:

Meta发布升级大模型LLaMA 2:开源可商用 - 知乎

https://en.wikipedia.org/wiki/BLOOM_(language_model)

LLMs模型速览下(BLOOM、 FLAN、LLaMA、Alpaca) - 知乎

开源大模型斯坦福Alpaca(小羊驼)——指令调优的LLaMA模型——100美元媲美GPT3.5 - 知乎

T5 模型:NLP Text-to-Text 预训练模型超大规模探索 - 知乎

【长文详解】T5: Text-to-Text Transfer Transformer 阅读笔记-腾讯云开发者社区-腾讯云

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

开源家族——中文羊驼LLaMA & Alpaca大语言模型 - 知乎

你可能感兴趣的:(大模型,-,AIGC,大模型,机器学习,AIGC,开源,OpenAI)