语言大模型总结

ChatGLM

机构:清华大学
类型:国产

  • ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,开源GIT网址,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考博客。
  • GLM-130B GLM-130B 是一个开放的双语(英汉)双向密集模型,具有 1300 亿个参数,使用通用语言模型(GLM)的算法进行预训练。它旨在支持单台A100(40G * 8)或V100(32G * 8)服务器上具有130B参数的推理任务。通过 INT4 量化,硬件要求可以进一步降低到具有 4 * RTX 3090(24G)的单个服务器,而性能几乎没有下降。截至 2022 年 7 月 3 日,GLM-130B 已经接受了超过 4000 亿个文本标记(中文和英文各 200B)的训练,它具有以下独特的特点:
    双语:支持英文和中文。开源git网址

MOSS

机构:复旦大学
类型:国产

2023年4月21日,复旦大学计算机科学技术学院自然语言处理实验室开发的新版MOSS模型已上线,成为国内首个插件增强的开源对话语言模型,支持搜索引擎、图像生成、计算器、方程求解器等插件工具。除了完成升级迭代,MOSS模型还走上了开源道路,相关代码、数据、模型参数已在Github和Hugging Face等平台开放,供科研人员下载,促进人工智能模型研究和开源社区的生态繁荣。开源git网址

MOSS是国内第一个发布的对话式大型语言模型,今年2月邀公众参与内测。它可以执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,将助力大语言模型的进一步探索和应用。内测版MOSS的英文对话水平比中文高,其中文回答在语法、知识等方面较为准确,但与ChatGPT相比,还存在知识储备量不够大、中文表述逻辑不够顺畅等问题。

为了提升MOSS的中文对话水平,并让人工智能大模型拥有更多的功能,复旦大学邱锡鹏教授团队在上海人工智能实验室的支持下加紧研发,用两个月时间开发出MOSS升级版。与2月发布的MOSS模型相比,升级版拥有更加丰富的中文世界知识、更为流畅的中文对话体验,并可以接入外部插件工具来增强自身能力。

盘古α

机构: 鹏城实验室、华为MindSpore、华为诺亚方舟实验室和北京大学等相关单位是鹏城·盘古α联合开发团队的主要成员
类型:国产

「鹏城·盘古α」由以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏城·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。开源网址

Luotuo

机构: 商汤科技和华中师范大学
类型:国产语料库对

骆驼(Luotuo)项目是由冷子昂 @ 商汤科技, 陈启源 @ 华中师范大学 以及 李鲁鲁 @ 商汤科技 发起的中文大语言模型开源项目,包含了一系列语言模型。
我们将项目命名为 骆驼 Luotuo (Camel) 主要是因为,Meta之前的项目LLaMA(驼马)和斯坦福之前的项目alpaca(羊驼)都属于偶蹄目-骆驼科(Artiodactyla-Camelidae)。而且骆驼科只有三个属,再不起这名字就来不及了。
开源git网址

MedGPT

机构:医联

medGPT采用大模型技术,基于医疗知识图谱为模型提供丰富、准确、结构化的医疗知识,并收集整理接近20亿条真实医患沟通对话、检验检测和病例信息进行深度训练学习,同时利用医生真实反馈进行强化学习,用以保障模型的推理质量、准确性与可靠性。值得一提的是,医联medGPT首次突破了AI医生无法与真实患者连续自由对话的难点,并在医疗问诊场景中支持多模态的输入和输出,在疾病的预防、诊断、治疗、康复四个重要环节全面实现智能化。

天河天元

机构:国家超算天津中心

MiniMax 大语言模型

机构: MiniMax

MiniMax成立于2021年12月,积极投身于中国人工智能技术高速发展的时代大潮,致力于成为通用人工智能时代基础设施建设者和内容应用创造者。
作为国内拥有文本、语音、视觉多种模态融合的通用大模型引擎能力,并打通产品全链路的技术公司,MiniMax团队致力于用领先的通用人工智能引擎技术,通过多场景和多维度应用及交互,以用户反馈量级的提升和多模态AI技术一体化的应用实践,推动通用人工智能技术新范式变革。
在前沿技术的科研层面,MiniMax以技术和产品为核心驱动力,自研了整套端到端AGI引擎系统。底层基础设施以极高效的并行计算能力支撑超大规模跨模型训练任务;文本、语音、视觉三个模态大模型算法能力均达到世界级领先水平;计算平台为通用模型提供推理优化能力,极大降低了人工智能内容生产(AIGC)的产品研发门槛,通过整套端到端研发链路的配合,目前所有产品和技术已实现双周迭代,为全球最高迭代效率。

BELLE

机构:贝壳(链家)

本项目的目标是促进中文对话大模型开源社区的发展,愿景是成为能够帮到每一个人的LLM Engine。
相比如何做好大语言模型的预训练,BELLE更关注如何在开源预训练大语言模型的基础上,帮助每一个人都能够得到一个属于自己的、效果尽可能好的具有指令表现能力的语言模型,降低大语言模型、特别是中文大语言模型的研究和应用门槛。为此,BELLE项目会持续开放指令训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。BELLE针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。
git开源地址

文心大模型

机构:百度

面向语言理解、语言生成等NLP场景,具备超强语言理解能力以及对话生成、文学创作等能力。创新性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化。

  • 开源版
    提供业界效果领先的ERNIE 3.0系列开源模型和基于ERNIE的前沿任务模型,满足企业和开发者对NLP模型开发和学习的需求,预置文本分类、文本匹配、序列标注、信息抽取、文本生成五大经典NLP任务,提供基于ERNIE3.0的预训练模型的开发和使用。开源git地址
  • 旗舰版
    效果领先、简单易用、高效灵活的NLP算法定制开发工具,预置30余个大规模预训练模型、40余个NLP基础任务、20余个数据预处理工具、10余个模型微调工具。支持在BML私有化平台中使用。可通过商务咨询文心ERNIE开发套件旗舰版使用方式。

星火认知大模型

机构:科大讯飞

科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。

混元大模型

机构:腾讯

通义千问

机构:阿里云

Claude

机构:Anthropic公司

天工

机构:昆仑万维和奇点智源

天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。

盘古系列AI大模型

机构:华为

知海图AI

机构:知乎

LLaMA

机构: Meta

Alpaca&Vicuna

机构:斯坦福大学

  • Alpaca
    中文Alpaca模型在上述中文LLaMA模型的基础上进一步使用了指令数据进行精调。如希望体验类ChatGPT对话交互,请使用Alpaca模型,而不是LLaMA模型。
  • Vicuna

Koala

机构: UC 伯克利的伯克利人工智能研究院(BAIR)

Open Assistant

机构: LAION AI

OpenAssistant是一个开源的对话模型,基于Pythia和LLaMA微调而来,主要用于训练人类标注的数据。来自 LAION AI 等机构的研究者收集了大量基于文本的输入和反馈,创建了一个专门训练语言模型或其他 AI 应用的多样化和独特数据集 OpenAssistant Conversations。

Chinese-LLaMA-Alpaca

为了促进大模型在中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,中文Alpaca模型进一步使用了中文指令数据进行精调,显著提升了模型对指令的理解和执行能力。详细内容请参考技术报告(Cui, Yang, and Yao, 2023)。
中文Alpaca模型在上述中文LLaMA模型的基础上进一步使用了指令数据进行精调。如希望体验类ChatGPT对话交互,请使用Alpaca模型,而不是LLaMA模型。

你可能感兴趣的:(人工智能)