2. ChatGLM开源⼤模型

为什么要学习开源⼤模型

  • 更⼤的微调空间:相⽐在线⼤模型,开源⼤模型可以使⽤更多微调框架进⾏模型微调,微调空间更⼤,更有可能快速完成定制化⼤模型训练;
  • 更加灵活的AI应⽤开发:相⽐封闭的在线模型,开源模型可以更加灵活便捷的嵌⼊到AI应⽤中,同时也可以更加⽅便的搭配其他开源框架进⾏使⽤,从⽽实现更⾼效率的AI应⽤开发;
  • 更低的资费、更安全的数据保障:此外,不同于在线⼤模型需要根据API调⽤情况付费,开源⼤模型开源本地部署,仅需⽀付相应算⼒费⽤即可;此外,数据可以直接本地训练模型,⽆需在线提交数据进⾏在线模型微调,数据安全也将更有保障;

全球开源⼤模型性能评估榜单

Hugging Face :Open LLM Leaderboard
地址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

LMSYS组织(UC伯克利背景) : LLM Leaderboard
地址:https://chat.lmsys.org/?arena

ChatGLM

  1. 中⽂最强⼤语⾔模型—ChatGLM 130B
    ChatGLM模型是由清华⼤学团队开发的⼤语⾔模型,该模型借鉴了ChatGPT 的设计思路,在千亿基座模型 GLM-130B1 中注⼊了代码预训练,通过有监督微调(Supervised FineTuning)等技术实现⼈类意图对⻬。2022年11⽉,斯坦福⼤学⼤模型中⼼对全球30个主流⼤模型进⾏了全⽅位的评测,GLM-130B 是亚洲唯⼀⼊选的⼤模型。在与 OpenAI、⾕歌⼤脑、微软、英伟达、脸书的各⼤模型对⽐中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。

  2. ChatGLM 6B
    此外,清华⼤学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B 是⼀个具有62亿参数的中英双语语⾔模型。通过使⽤与 ChatGLM(chatglm.cn)相同的技术,ChatGLM-6B 初具中⽂问答和对话功能,并⽀持在单张 2080Ti 上进⾏推理使⽤。具体来说,
    ChatGLM-6B 有如下特点:

  • 充分的中英双语预训练: ChatGLM-6B 在 1:1 ⽐例的中英语料上训练了 1T 的token 量,兼具双语能⼒;
  • 较低的部署⻔槛: FP16 半精度下,ChatGLM-6B 需要⾄少 13GB 的显存进⾏推理,结合模型量化技术,这⼀需求可以进⼀步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上;

2. ChatGLM开源⼤模型_第1张图片

  • 其中,FP16指的是半精度模式,该模式下推理(即模型运⾏)需要⾄少13G显存,微调需要⾄少14G显存;
  • INT4、INT8则是量化模式,所谓量化模式,指的是模型会限制参数的精度,INT4表示保留4位参数精度,INT8则表示保留8位参数精度,此时相应的推理显存占⽤和微调显存占⽤都会明显减少。最低精度INT4模式下,可以在单卡2060上运⾏,也是⽬前硬件要求最低的开源⼤模型;
  • 根据实际测试,在全精度模式下,推理最低显存占⽤为20G,微调显存占⽤为22G左右
  1. ChatGLM 6B丰富的开源⽣态

    • 微调框架:ChatGLM 6B + P- Tuning微调,项⽬地址: https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md
    • 微调框架:ChatGLM 6B + LoRA微调,项⽬地址: https://github.com/mymusise/ChatGLM-Tuning
    • 本地知识库:ChatGLM 6B + LangChain,项⽬地址: https://github.com/imClumsyPanda/langchain-ChatGLM
    • 多轮对话前端:ChatGLM 6B多轮对话的Web UI展示,项⽬地址: https://github.com/Akegarasu/ChatGLM-webui
  2. 基于ChatGLM的多模态⼤模型:VisualGLM 6B

    • VisualGLM-6B 是⼀个开源的,⽀持图像、中⽂和英⽂的多模态对话语⾔模型,语⾔模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语⾔模型的桥梁,整体模型共78亿参数。
    • VisualGLM-6B 依靠来⾃于 CogView 数据集的30M⾼质量中⽂图⽂对,与300M经过筛选的英⽂图⽂对进⾏预训练,中英⽂权重相同。该训练⽅式较好地将视觉信息对⻬到ChatGLM的语义空间;之后的微调阶段,模型在⻓视觉问答数据上训练,以⽣成符合⼈类偏好的答案
    • 项⽬地址:https://github.com/THUDM/VisualGLM-6B

    模型实现思路区别

    • Dall·E:将图像视作⼀种语⾔,将其转化为离散化的Token并进⾏训练,优势在于能够⾮常详细的描述⼀张图⽚,但缺点在于图像的Token利⽤率较低,需要1000以上的Token才能描述⼀张256分辨率的图;
    • VisualGLM:考虑到⼈类在认识图⽚的时候,往往只对少量视觉语意信息感兴
      趣,因此可以不⽤将整个图⽚全部离散化为图⽚,只将图⽚特征对其到预训练
      语⾔模型即可,这也是BLIP-2的视觉语⾔与训练⽅法实现策略。优势在于能够
      充分语⾔模型,缺点在于会缺失图像部分底层信息(细节信息);
  3. 低⻔槛上⼿使⽤,最低2080Ti即可运⾏;

    • 中英双语⼤模型,其中中⽂提示效果更佳;
    • 较为丰富的对话UI、微调、AI开发项⽬⽣态;
    • ⼤神云集的项⽬开发和维护团队;
    • 率先提出多模态⼤模型VisualGLM;
    • ⾮常活跃的开源社区,已经越来越多的微调和实践应⽤场景,未来发展极具潜⼒;

你可能感兴趣的:(大模型学习,人工智能)