作者:Linux猿
简介:CSDN博客专家,华为云享专家,Linux、C/C++、云计算、物联网、面试、刷题、算法尽管咨询我,关注我,有问题私聊!
欢迎小伙伴们点赞、收藏⭐、留言
本篇文章主要对开源大模型进行总结和介绍。
大模型指网络规模巨大的深度学习模型,具体表现为模型的参数量规模较大,其规模通常在千亿级别。
LLaMa 2 是 Meta 发布的开源大模型,是开源可商用的版本,有不错的使用效果。
LLaMa 2 有参数量有三种类型:7B、13B、70B。
github 地址:GitHub - facebookresearch/llama: Inference code for LLaMA models
论文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
BLOOM是 BigScience Large Open-science Open-access Mul-tilingual Language Model首字母的缩写。
BigScience发布 BLOOM,旨在为学术界、非营利组织和小型公司的研究实验室能够更好的研究和使用LLM。并且,BLOOM 本身也是由大量的是AI研究人员参与的单个研究项目,同时也是迄今为止最大规模的合作结果。
(1)它是一种基于 Transformer 的大型语言模型;
(2)基于 ROOTS 语料库进行训练,ROOTS 语料库包含有 46 种自然语言和13 种编程语言;
(3)由BigScience社区开发和发布;
(4)可以商用,但必须标明使用了 BLOOM,并附上一个许可说明;
(5)最新版本参数规模 176B;
模型地址:bigscience (BigScience Workshop)
论文地址:https://arxiv.org/pdf/2211.05100v4.pdf
Alpaca 7B 是斯坦福大学在 LLaMA 7B 模型上经过 52K 个指令跟踪示范进行微调的模型,其性能比肩 GPT-3.5(text-davinci-003),但是整个训练成本不到 600 美元。
Alpaca 仅用于学术研究,禁止任何商业用途。原因有三:
1、Alpaca 基于 LLaMA,它有非商业许可证,因此 Alpaca 也必须继承这一点;
2、指令数据基于 OpenAI 的 text-davinci-003,其使用条款禁止开发与 OpenAI 竞争的模型;
3、没有设计足够的安全措施,因此羊驼还未准备好作为一般用途。
论文地址:Stanford CRFM
github 地址:GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.
T5 (Transfer Text-to-Text Transformer 的简写)是 google 发布的一款开源大模型,
论文地址:https://www.jmlr.org/papers/volume21/20-074/20-074.pdf
github地址:GitHub - google-research/text-to-text-transfer-transformer: Code for the paper "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"
通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在Qwen-7B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。本仓库为Qwen-7B-Chat的仓库。
论文地址:
github地址:https://github.com/QwenLM/Qwen-7B
在线访问:Qwen-7B-Chat-Demo
参考链接:
Meta发布升级大模型LLaMA 2:开源可商用 - 知乎
https://en.wikipedia.org/wiki/BLOOM_(language_model)
LLMs模型速览下(BLOOM、 FLAN、LLaMA、Alpaca) - 知乎
开源大模型斯坦福Alpaca(小羊驼)——指令调优的LLaMA模型——100美元媲美GPT3.5 - 知乎
T5 模型:NLP Text-to-Text 预训练模型超大规模探索 - 知乎
【长文详解】T5: Text-to-Text Transfer Transformer 阅读笔记-腾讯云开发者社区-腾讯云
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
开源家族——中文羊驼LLaMA & Alpaca大语言模型 - 知乎