大语言模型调研

调研目标

1.BELLE
2.ChatGLM
3.ChatYuan

1.BELLE

1.1 简单介绍

BELLE(BE Large Language model Engine),该项目旨在促进中文对话大模型开源社区的发展。其愿景是通过 LLM 引擎为每个人提供帮助。为了实现这个目标,该项目基于开源预训练大语言模型,如BLOOM和LLAMA,进行了中文优化。模型调优过程仅使用由 ChatGPT 生产的数据,而不包含任何其他数据,为中文指令提供更好的支持。

1.2 部署条件

该模型目前只支持应用的形式进行部署,即基于BELLE模型的跨平台离线大语言模型交谈App。使用量化后的离线端上模型配合Flutter,可在macOS(已支持)、Windows、Android、iOS等设备上运行。

macOS

建议使用M1/M2系列芯片配合16G RAM以获得最佳体验。如果推理速度过慢,可能是内存不足,可以尝试关闭其他app以释放内存。8G内存会非常慢Intel芯片理论上也可以跑,但是速度较慢

Windows、Android、iOS

尚未支持。

1.3 是否支持通过API访问

不支持,仅支持通过下载应用的形式使用。下载链接
,且应用不支持多轮对话大语言模型调研_第1张图片

1.4 是否支持接受附件

不支持,该模型仅支持文字的形式。

1.5 是否提供了相应的demo

模型提供了相应的demo,但是由于其量化模型的hugging face链接无法下载大语言模型调研_第2张图片大语言模型调研_第3张图片,所以demo无法正常运行。

2.ChatGLM

2.1 简单介绍

ChatGLM-6B :清华大学开源的一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化,使用类似于 ChatGPT 的技术进行训练。该模型基于 General Language Model(GLM)架构,具有 62 亿参数,在经过约1t标识符的中英双语训练以及反馈自助等技术的加持后,这款 62 亿参数的 ChatGLM-6B 已经具备了生成符合人类偏好的回答的能力。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。

2.2 部署条件

FP16 半精度下,ChatGLM-6B 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8)和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上,(如果需要实现高效参数微调的话,则显存都加1GB),详情见下图。
大语言模型调研_第4张图片

2.3 是否支持通过API访问

未提供api,且目前第一轮内测已经结束。
由于模型容量小,决定了其相对较弱的模型记忆和语言能力。即ChatGLM-6B 的上下文理解能力还不够充分,虽然支持多轮对话,但是在多轮对话的场景时,可能会出现上下文丢失和理解错误的情况。

2.4 是否支持接受附件

不支持附件

2.5 是否提供了相应demo

提供了需要自己部署的demo,是基于Gradio的网页版demo和命令行demo,需要本地部署,我尝试着部署了一下,我在部署的过程中参考了链接,由于电脑性能差(m1芯片,8g+256g),在git lfs pull过程中由于硬盘剩余不够,硬盘爆了,所以我没法本地部署。
不过,我在网上找到了一个可以在线运行的demo。链接,测试结果为
大语言模型调研_第5张图片

3.ChatYuan

3.1 简单介绍

ChatYuan是元语功能型对话大模型,这个模型可以用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

3.2 部署条件

目前有v1和v2两个版本,v2是对v1对优化。ChatYuan-large-v2是ChatYuan系列中以轻量化实现高质量效果的模型之一,用户可以在消费级显卡、 PC甚至手机上进行推理(显存需要6G,INT4 最低只需 400M )。

3.3 是否支持通过API访问

支持,但是要申请api-key。

api调用地址

api-key申请地址

api-key申请方式:注册账号后,直接创建key即可,每个key免费额度2000次。

3.4 是否支持附件

不支持附件

3.5 是否提供了相应的demo

提供了在线demo,在线调用地址,实际调用结果大语言模型调研_第6张图片

参考网站:
https://github.com/LianjiaTech/BELLE

https://github.com/LianjiaTech/BELLE/blob/main/chat/README.md

https://github.com/THUDM/ChatGLM-6B

https://chatglm.cn/blog

https://github.com/clue-ai/ChatYuan

https://www.bilibili.com/video/BV1km4y167Sa/?spm_id_from=333.337.search-card.all.click&vd_source=4b497bba556100cbed70cc452432bd97

https://github.com/l15y/wenda

https://modelscope.cn/studios/AI-ModelScope/ChatGLM6B-unofficial/summary/

你可能感兴趣的:(语言模型,人工智能,自然语言处理)