ChatGPT开源系列

目录

进化树

从GPT-4 可以看出未来 LLM 的哪些趋势?未来的研发方向和优化策略是什么?

模型

Stanford Alpaca

可以借鉴的点

llama.cpp

验证阶段已完成

nebullvm-chatllama(待定)

可以借鉴的点

OpenChatKit

可以借鉴的点:

ChatGLM

可以借鉴的点

应用

QA系统

分类任务

其他任务


进化树

ChatGPT开源系列_第1张图片

基础模型

ChatGPT开源系列_第2张图片

GPT-4 之后

从GPT-4 可以看出未来 LLM 的哪些趋势?未来的研发方向和优化策略是什么?


 

1)闭源趋势

网友戏称 OpenAI 已沦为 Closed AI。毕竟从 GPT1 到 GPT-4,模型各类细节越来越闭源和黑盒,大模型战场的竞争因素决定了 GPT-4 类的第一梯度模型可能会越来越封闭,成为技术门槛。

2)「Self Instruct」模式

其核心是:中小模型+大模型生产指令数据的「LLaMA 7B + text-davinci-003」模式。中小参数的模型在成本上,是更靠近实际落地的方式。要知道 llama.cpp 可以在 Pixel 6 手机上运行。通过该模式精调过的 Alpaca,效果接近普通 GPT3.5。

3)模型结合

更多模态、更多形态结合 ChatGPT 类模型包括 Kosmos-1 和具身智能 PaLM-E,同时从听、说、看、触等全方位结合,形成类似真正智能体的概念。

4)模型加速和降低成本

这会是持续关注的方向,包括从训练、推理等多层面考量。


 

ChatGPT开源系列_第3张图片


 

5)能力预测

这是很重要的方向。即用小模型来预测广泛大模型的能力,极大减少试错成本,提升训练效率。

6)开源评测框架

这对于 LLM 的评测具有重大意义,可以快速发现改进方向。

模型

Stanford Alpaca

基于LLaMA.

Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。关键是训练成本奇低,不到600美元。在8个80GB A100上训练了3个小时,不到100美元;生成数据(开放)使用OpenAI的API,500美元。

可以借鉴的点

  1. self-instruct

ChatGPT开源系列_第4张图片

  1. 数据集示例
  2. 微调代码已放出,微调后的模型没有开源
  • 推理代码参考 官方
  • 中文能力不太行 已有自己的微调版本

推理代码可以参考 llama本身

llama.cpp

基于LLaMA.

在苹果M1/M2芯片上跑LLaMA,130亿参数模型仅需4GB内存,LeCun转赞

优势:c++编译

后续可以再尝试lora版本 有说效果更好 且模型效果更小

训练参考

lora原理

ChatGPT开源系列_第5张图片

验证阶段已完成

  • 中文数据微调,验证方法可行性。
    • 具体做法:
      • 生成中文种子任务,让ChatGPT生成数据。用了10w的数据去微调

nebullvm-chatllama(待定)

基于LLaMA.

在做一个框架的事情 要集成各个模型进来

  1. 主要参考数据准备阶段
  2. 三阶段提供微调方法

微调脚本

ChatGPT开源系列_第6张图片

3.推理模块还在开发中

ChatGPT开源系列_第7张图片

可以借鉴的点

  1. 训练成本

ChatGPT开源系列_第8张图片

  1. 数据集制作方法

OpenChatKit

基于GPT系列

  • 一个参数量达 20B 的开源模型,该模型基于 EleutherAI 的 GPT-NeoX-20B,在 4300 万条指令上进行了微调;
  • 一个参数量达 60 亿的审核模型(moderation model),可以帮模型过滤不当内容;
  • 一个可扩展的检索系统,可以帮模型检索维基百科等资源库,从而给出最新信息。

可以借鉴的点:

  1. 有训练模块
  2. 有推理模块
  3. 数据准备阶段。数据格式类似OpenAI

在社区中看到训练资源

ChatGPT开源系列_第9张图片

ChatGLM

基于GLM (清华)

清华开源 千亿基座的对话模型开启内测,对应单卡版本开源

  1. 无官方微调模块,但有其他开源替代方案
  2. 有推理模块
  3. 低成本部署
  4. 数据样本参考开源的方式

可以借鉴的点

  1. 量化,低成本部署,单卡部署

租服务器

ChatGPT开源系列_第10张图片

应用

qa结合embedding。azure

ChatGPT开源系列_第11张图片

ChatGPT开源系列_第12张图片

ChatGPT开源系列_第13张图片

阿里opensearch 内容社区实现

QA系统

ChatGPT开源系列_第14张图片

分类任务

ChatGPT开源系列_第15张图片

有那么多的embedding为什么gpt那么优秀

ChatGPT开源系列_第16张图片

其他任务

ChatGPT开源系列_第17张图片


最难的是工程化(技术方案产品落地的的能力),怎么能更好的把各种技术栈堆叠在一起(可能一个功能背后是多个功能/技术栈的结合),且能够无缝连接(把技术点用产品的交互来实现,让用户用最少的理解/使用成本,完成复杂度较高的任务),最后实现一个很好的效果。

你可能感兴趣的:(chatgpt,深度学习,自然语言处理)